字节跳动进军AI视频生成领域，发布豆包大模型

要点速达👈

数智朋克讯，字节跳动旗下火山引擎于9月24日在深圳举行的AI创新巡展上，正式推出了豆包视频生成模型PixelDance和Seaweed，面向企业市场开启邀测。这一举措标志着该公司在AI视频生成领域的战略拓展。

活动现场，展示的生成效果令人印象深刻。豆包模型展现了卓越的语义理解能力和复杂的多主体交互，确保内容的一致性，达到了行业领先水平。火山引擎总裁谭待表示，视频生成领域仍面临诸多挑战，豆包模型将持续演进，致力于探索更多创作可能性。

与传统视频生成模型相比，豆包模型能够自然连贯地执行多动作和复杂交互，创作者在使用过程中发现，生成的视频在不同镜头下，人物样貌和细节得以保持一致，几乎可与实拍效果媲美。火山引擎指出，豆包模型基于DiT架构，采用高效的融合计算单元，具备多种镜头语言能力，包括变焦、环绕和目标跟随等。

新设计的扩散模型训练方法成功解决了镜头切换的一致性问题，确保在镜头转换时保持主体、风格和氛围的统一。此外，经过剪映和即梦AI等多个场景的迭代，豆包模型的视觉效果也大幅提升，适用于电商、教育、文旅等多种领域，为专业创作者提供强大支持。

目前，豆包视频生成模型正在即梦AI内测中，未来将逐步向所有用户开放。火山引擎的市场负责人表示，AI与创作者的深度互动将带来意想不到的创作灵感。此次巡展还发布了豆包音乐模型和同声传译模型，实现了语言、语音、图像和视频的全面覆盖，满足各行业需求。

随着产品能力的不断完善，豆包大模型的使用量也在快速增长。据悉，截至9月，其日均tokens使用量已超过1.3万亿，较5月发布时增长十倍，涵盖每日5000万张图片和85万小时的语音处理量。

数智资讯订阅