DIGIPUNK
去投稿

Mimic Motion:腾讯的Motion AI创新框架引领高质量视频生成



近年来,生成式人工智能在图像生成领域取得了显著进展,但视频生成仍面临可控性、视频长度和细节丰富性等诸多挑战。腾讯和上海交通大学联合提出的MimicMotion,是一种革新性的视频生成框架,致力于生成高质量的、任意长度的视频,并能自由控制动作。

MimicMotion的技术优势

MimicMotion通过“置信度感知姿态引导”技术,显著提升了视频生成的质量。其核心技术包括:

  1. 置信度感知的姿态引导:在姿态序列中引入关键点置信度评分,使模型能够自适应调整姿态引导的影响力。
  2. 区域损失放大:对高置信度区域的损失进行放大,减少图像失真。
  3. 渐进潜在融合:在生成长视频时采用渐进潜在融合策略,保证时间平滑性,减少资源消耗​。

MimicMotion的工作原理

MimicMotion结合了图像到视频的扩散模型和新颖的置信度感知姿态引导。其核心组件包括时空U-Net和PoseNet,用于引入姿态序列作为条件。在生成过程中,通过亮度表示姿态估计的置信度,对不同区域进行差异化处理,增强了手部区域的细节生成。

实验与对比

MimicMotion通过大量实验和用户研究,表现出显著的改进。在多个指标上,MimicMotion均超越了现有的方法,例如在FID-VID和FVD指标上分别取得了9.3和594的低分,显著优于其他方法​。

方法 FID-VID FVD
MagicPose 13.3 916
Moore 12.4 728
MuseV 14.6 754
MimicMotion 9.3 594

在TikTok数据集上的用户偏好研究表明,用户更倾向于选择MimicMotion生成的视频,显示出其在视觉效果和用户体验上的显著优势​。

公司背景

MimicMotion由腾讯和上海交通大学合作开发。腾讯作为中国领先的互联网公司,在人工智能和视频技术领域有着丰富的积累和应用场景。而上海交通大学作为中国顶尖的研究型大学之一,拥有强大的科研实力和创新能力。两者的合作为MimicMotion的开发提供了坚实的基础。

应用前景

MimicMotion的出现为视频生成技术带来了新的突破,尤其在娱乐、教育、广告等领域具有广泛的应用前景。通过生成高质量、长时间的视频,MimicMotion不仅提升了视频生成的可控性,还大大扩展了其应用范围。

数智朋克点评

MimicMotion凭借其创新的置信度感知姿态引导和渐进潜在融合策略,展示了视频生成领域的巨大潜力和广阔前景。未来,随着技术的进一步发展和完善,MimicMotion有望在更多实际应用中发挥重要作用,为用户带来更加丰富和生动的视觉体验。


由数智朋克团队策划
发表于 2024年07月16日

所属标签
MimicMotion
视频生成
腾讯
PoseNet

本文链接: https://www.shuzhipunk.com/articles/jHb3MTAsb0d
转载请注明文章出处