DIGIPUNK
去投稿
发表于:2024年10月23日

智源研究院推出Emu3:实现文本、图像、视频统一生成的多模态模型

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
要点速达👈
  • 🚀 Emu3模型基于下一个token预测,无需扩散模型即可生成文本、图像、视频。
  • 📊 在图像生成、视觉语言理解和视频生成任务中,Emu3超越主流模型如SD-1.5、SDXL、LlaVA-1.6。
  • 🧠 Emu3的视觉tokenizer将视频和图像转化为离散token,提升多模态处理效率。
  • 🔄 Emu3支持Any-to-Any任务,实现文本、图像、视频间的统一转换。
  • 📂 Emu3模型已开源,助力研究人员探索多模态学习的更多可能。

数智朋克报道,智源研究院今日正式发布了其最新多模态模型Emu3。该模型具有高度创新性,能够通过简单的下一个token预测,实现对文本、图像和视频三种模态数据的理解与生成。该设计不同于传统的多模态方法,不需要借助扩散模型或其他复杂组合方式,就能完成跨模态生成和理解。

官方介绍称,Emu3在多个测试中表现优于现有主流模型。在图像生成方面,基于人类偏好评测,Emu3的表现超越了SD-1.5和SDXL模型;在视觉语言理解任务中,Emu3在12项基准测试中的平均得分优于LlaVA-1.6;在视频生成领域,基于VBench的测试结果,Emu3同样领先于OpenSora 1.2。

Emu3的核心创新之一在于其视觉tokenizer的设计,能够将图像和视频数据转化为离散token。这些离散token可以与文本生成的token无缝结合,并输入到模型中进行处理。通过这一设计,Emu3可以生成统一的离散token输出,这些输出可被重新解码为文本、图像或视频,简化了多模态任务间的转换流程,支持Any-to-Any任务模式。

智源研究院表示,Emu3的研究证明了通过下一个token预测这一方法,可以构建强大的多模态模型框架,在跨模态任务中展现出优越的性能。该模型简化了多模态模型的设计逻辑,使得复杂的数据处理集中于token操作,具有较高的训练和推理效率。伴随模型的发布,智源研究院还对外开放了Emu3的关键技术和模型代码,为研究人员和开发者提供了进一步探索的机会。

本文链接: https://www.shuzhipunk.com/articles/HRpwPtDvjPa
转载请注明文章出处

文章所属标签
Emu3
智源研究院
多模态模型
视频生成