DIGIPUNK
去投稿
发表于:2025年01月15日

新加坡国立大学推出NExT-GPT,提升多模态AI处理能力

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
要点速达👈
  • 🚀 NExT-GPT通过创新架构提升多模态数据处理能力。
  • 📊 模型采用三阶段设计,实现高效语义对齐与生成。
  • 💡 仅调整1%参数,显著降低训练成本。
  • 🎯 实验结果表明其在基准测试中优于现有模型。
  • 🧠 在零样本场景下,模型展现出卓越的泛化能力。

数智朋克报道,新加坡国立大学 NExT++ 研究中心近日发布了一项 多模态大语言模型(MM-LLM)研究成果,其全新设计的 NExT-GPT 模型在处理文本、图像、视频和音频等多模态数据方面实现了重大突破。研究团队通过创新的模型架构与轻量级训练方法,显著降低了训练成本,同时提升了多模态数据理解与生成的能力,为 人工智能在多模态交互领域的发展提供了新思路。

NExT-GPT 由多模态编码、语言模型推理和多模态生成三大核心阶段构成。 多模态编码阶段 采用 ImageBind 统一六种模态数据,通过投影层将这些数据转化为语言嵌入表示。 语言模型推理阶段 基于开源语言模型 Vicuna(7B-v0),能够处理多模态信息并生成相应的文本或模态信号标记。 最终,多模态生成阶段利用条件扩散模型如 Stable Diffusion 和 Zeroscope,解码信号生成内容。

该架构的关键在于仅需调整约 1% 的编码器与解码器参数,其余部分保持冻结状态,显著降低训练复杂度。

为了实现跨模态语义对齐,研究团队提出了一种分组机制,将视觉与音频等模态特征聚合为语义概念标记输入语言模型,并通过 Webvid-2M、CC3M 和 AudioCaps 等数据集优化从多模态输入到文本输出的能力。 此外,解码阶段结合指令对齐策略,通过模态信号标记与扩散条件编码器的配合,实现精准的多模态内容生成。

  • 研究团队开发了指令调整(MosIT)方法与定制数据集。
  • MosIT 数据集通过多轮对话模板和多模态输入输出组合,增强了模型在跨模态推理与生成任务中的表现。
  • 实验结果显示,NExT-GPT 在 MMBench 与 SEED-Bench 等基准测试中表现出色,远超当前主流模型。

实验还深入分析了信号标记数量与分组机制对性能的影响,验证了其在多模态特征对齐中的有效性。实验表明, NExT-GPT 在零样本场景下也能生成高质量内容,展现了卓越的泛化能力。

通过创新架构设计、轻量级训练方式与高效的数据集支持, NExT-GPT 实现了对多模态数据的深度理解与生成能力,为多模态大语言模型领域的进一步发展奠定了坚实基础。

本文链接: https://www.shuzhipunk.com/articles/nTiCoHxX1cm
转载请注明文章出处

文章所属标签
NExT-GPT
多模态大语言模型