DIGIPUNK
去投稿
发表于:2024年10月16日

火山引擎发布大模型训练视频预处理方案,助力视频大模型技术创新

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
要点速达👈
  • 📽 火山引擎发布大模型训练视频预处理方案,提升训练效率。
  • 💡 BMF自研框架助力豆包视频生成模型解决复杂视频交互问题。
  • 💻 预处理方案依托Intel算力,优化成本和数据处理效率。
  • 🚀 自研视频编解码芯片节省95%成本,未来将对外开放测试。
  • 🎥 多项“音视频+AI”技术方案,全面助力AIGC时代企业需求。

数智朋克讯,火山引擎在视频云技术大会上发布了全新的大模型训练视频预处理方案,以解决视频大模型训练过程中的成本、质量和性能难题。该方案目前已成功应用于豆包视频生成模型,展示了在高效处理海量视频数据方面的强大能力。

火山引擎总裁谭待在致辞中提到,随着AIGC和多模态技术的发展,用户体验正在经历深刻变革。火山引擎依托抖音业务的实践经验,正在积极推动AI大模型与视频技术的深度融合,旨在为企业提供更强大的技术支持。核心的自研多媒体处理框架BMF则成为这一预处理方案的技术基础,能够有效应对大规模数据处理中的算力成本挑战。

抖音集团视频架构负责人王悦表示,视频大模型厂商在处理海量数据时面临着高昂的计算成本、不均衡的数据质量,以及复杂的处理链路。火山引擎通过与Intel等资源合作,利用自研的BMF框架优化算力调度,并发布了支持端侧大模型接入的BMF lite版本,为视频数据的预处理提供了有效的解决方案。这不仅提升了模型训练效率,还极大地降低了成本。

豆包视频生成模型PixelDance的训练过程中就采用了火山引擎的视频预处理方案。Bytedance Research负责人李航指出,这一方案帮助豆包模型在处理复杂交互和多镜头切换等技术难题时取得了显著突破。同时,火山引擎的视频云团队还提供了一站式的点播解决方案,确保了模型商业化应用的顺利推进。

此外,火山引擎还发布了多项“音视频+AI”技术方案,包括跨语言同声复刻直播、多模态视频理解与生成、对话式AI实时交互等,全链路融入AI能力,为企业适配AIGC时代的需求提供了全面支持。王悦还透露,字节跳动自研的视频编解码芯片已取得显著进展,并将很快开放测试,推动更广泛的商业应用。

本文链接: https://www.shuzhipunk.com/articles/YPmD4gfC9Zh
转载请注明文章出处

文章所属标签
火山引擎
大模型训练
豆包视频