腾讯发布全球最大视频生成开源大模型

要点速达👈

🖥️ 腾讯发布全球最大视频生成开源大模型“混元”，参数量达130亿
🎥 支持中英文输入，可生成高质量视频，尤其在人物和场景生成上表现突出
🔄 自动切换镜头功能提升了视频创作的灵活性和自然感
⚙️ 采用创新架构与新一代文本编码器，确保每帧视频过渡流畅
🌍 腾讯混元模型已开源，开发者可免费使用，推动全球AI技术进步

数智朋克消息，腾讯近期正式推出其备受瞩目的混元视频生成大模型，参数量达到130亿，成为全球最大的视频开源生成模型。用户可以通过腾讯元宝App体验这一功能，尽管前期需要申请。混元模型能够根据用户的简短描述，自动生成对应的视频，支持中英文双语输入，并提供多种尺寸与清晰度选项。

腾讯的混元视频生成大模型展现了出色的文本与视频一致性，尤其在人物与人造场景的生成效果上尤为突出。该模型的亮点之一是生成流畅且合理的运动镜头，尤其在处理镜面反射和镜中动作时，能够确保镜内外动作同步，物体变形和光影反射自然真实。腾讯混元还具备自动切换镜头的功能，这在业内较为少见，进一步提升了视频创作的灵活性与自然感。

该模型的技术优势主要来自其独特的架构，采用了类似Sora的DiT架构，并在此基础上进行了多次创新升级。此外，混元还配备了新一代文本编码器和全注意力机制，使得每一帧视频的过渡更加流畅，支持多视角的镜头切换。通过3D变分编码器（VAE），模型在高速镜头等细节处理上表现尤为突出。

混元视频生成大模型的应用前景广泛，尤其适用于广告宣传、动画制作、创意视频生成等商业场景。在测试阶段，多家媒体已使用该模型制作创意视频，包括《江山如此多娇》和《山水之间》等作品，展示了其在创意视频领域的巨大潜力。

腾讯宣布，混元视频生成大模型已全面开源，相关资源已在Hugging Face平台和GitHub上发布。开发者和企业可免费使用该模型，并基于其开发插件和定制应用。此举标志着腾讯加速推动AI技术的普及与创新，开发者可在不必从头训练模型的基础上，直接应用该模型进行推理，助力全球AI技术的快速进步。

腾讯发布全球最大视频生成开源大模型

数智资讯订阅