DIGIPUNK
去投稿
发表于:2024年12月04日

腾讯发布全球最大视频生成开源大模型

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
要点速达👈
  • 🖥️ 腾讯发布全球最大视频生成开源大模型“混元”,参数量达130亿
  • 🎥 支持中英文输入,可生成高质量视频,尤其在人物和场景生成上表现突出
  • 🔄 自动切换镜头功能提升了视频创作的灵活性和自然感
  • ⚙️ 采用创新架构与新一代文本编码器,确保每帧视频过渡流畅
  • 🌍 腾讯混元模型已开源,开发者可免费使用,推动全球AI技术进步

数智朋克消息,腾讯近期正式推出其备受瞩目的混元视频生成大模型,参数量达到130亿,成为全球最大的视频开源生成模型。用户可以通过腾讯元宝App体验这一功能,尽管前期需要申请。混元模型能够根据用户的简短描述,自动生成对应的视频,支持中英文双语输入,并提供多种尺寸与清晰度选项。

腾讯的混元视频生成大模型展现了出色的文本与视频一致性,尤其在人物与人造场景的生成效果上尤为突出。该模型的亮点之一是生成流畅且合理的运动镜头,尤其在处理镜面反射和镜中动作时,能够确保镜内外动作同步,物体变形和光影反射自然真实。腾讯混元还具备自动切换镜头的功能,这在业内较为少见,进一步提升了视频创作的灵活性与自然感。

该模型的技术优势主要来自其独特的架构,采用了类似Sora的DiT架构,并在此基础上进行了多次创新升级。此外,混元还配备了新一代文本编码器和全注意力机制,使得每一帧视频的过渡更加流畅,支持多视角的镜头切换。通过3D变分编码器(VAE),模型在高速镜头等细节处理上表现尤为突出。

混元视频生成大模型的应用前景广泛,尤其适用于广告宣传、动画制作、创意视频生成等商业场景。在测试阶段,多家媒体已使用该模型制作创意视频,包括《江山如此多娇》和《山水之间》等作品,展示了其在创意视频领域的巨大潜力。

腾讯宣布,混元视频生成大模型已全面开源,相关资源已在Hugging Face平台和GitHub上发布。开发者和企业可免费使用该模型,并基于其开发插件和定制应用。此举标志着腾讯加速推动AI技术的普及与创新,开发者可在不必从头训练模型的基础上,直接应用该模型进行推理,助力全球AI技术的快速进步。

本文链接: https://www.shuzhipunk.com/articles/JcG0rLt5nOO
转载请注明文章出处

文章所属标签
腾讯
视频生成
混元大模型