要点速达👈
- 字节跳动推出豆包视频生成模型,标志进军AI视频领域🎥
- 模型具备高水平的语义理解和多主体交互能力🌐
- 新设计的训练方法解决了镜头切换一致性问题⚙️
- 豆包模型已在多个行业中得到应用,为创作者提供支持💡
- 使用量迅猛增长,日均tokens超过1.3万亿📈
数智朋克讯,字节跳动旗下火山引擎于9月24日在深圳举行的AI创新巡展上,正式推出了豆包视频生成模型PixelDance和Seaweed,面向企业市场开启邀测。这一举措标志着该公司在AI视频生成领域的战略拓展。
活动现场,展示的生成效果令人印象深刻。豆包模型展现了卓越的语义理解能力和复杂的多主体交互,确保内容的一致性,达到了行业领先水平。火山引擎总裁谭待表示,视频生成领域仍面临诸多挑战,豆包模型将持续演进,致力于探索更多创作可能性。
与传统视频生成模型相比,豆包模型能够自然连贯地执行多动作和复杂交互,创作者在使用过程中发现,生成的视频在不同镜头下,人物样貌和细节得以保持一致,几乎可与实拍效果媲美。火山引擎指出,豆包模型基于DiT架构,采用高效的融合计算单元,具备多种镜头语言能力,包括变焦、环绕和目标跟随等。
新设计的扩散模型训练方法成功解决了镜头切换的一致性问题,确保在镜头转换时保持主体、风格和氛围的统一。此外,经过剪映和即梦AI等多个场景的迭代,豆包模型的视觉效果也大幅提升,适用于电商、教育、文旅等多种领域,为专业创作者提供强大支持。
目前,豆包视频生成模型正在即梦AI内测中,未来将逐步向所有用户开放。火山引擎的市场负责人表示,AI与创作者的深度互动将带来意想不到的创作灵感。此次巡展还发布了豆包音乐模型和同声传译模型,实现了语言、语音、图像和视频的全面覆盖,满足各行业需求。
随着产品能力的不断完善,豆包大模型的使用量也在快速增长。据悉,截至9月,其日均tokens使用量已超过1.3万亿,较5月发布时增长十倍,涵盖每日5000万张图片和85万小时的语音处理量。