要点速达👈
- 📊 复旦大学与百度合作推出 Hallo2 AI 模型,现已开源。
- 📽️ Hallo2 可生成长达数小时的 4K 分辨率人物动画。
- 🔍 基于 latent diffusion models,引入 patch-drop 和高斯噪声提升视频一致性。
- 🎨 支持语音与文本提示,提高动画生成的多样性和控制性。
数智朋克消息,复旦大学与百度共同推出了一款名为 Hallo2 的新型 AI 模型,已经在 GitHub 平台发布并开源。这个先进的模型能够生成长达数小时的 4K 分辨率人物动画视频,突破了传统生成模型的技术限制。Hallo2 建立在 latent diffusion models 的技术框架之上,与上一代的 Hallo 模型相比,在效果和视频生成的时间长度上都有显著提升。
数智朋克了解到,Hallo2 通过引入数据增强方法如 patch-drop 和高斯噪声,极大地提高了长时间视频的视觉一致性和时间连贯性。同时,该模型结合了向量量化生成对抗网络(VQ-GAN)以及时间对齐技术,确保生成的视频在高分辨率下依然保持画面质量和流畅的动画效果。此外,Hallo2 支持可调整的语义文本标签作为条件输入,这使得其不仅能依据音频提示生成视频,还能通过文本提示进一步增强控制精度和生成内容的多样性。
据项目介绍,Hallo2 是首款能够生成长达 1 小时、4K 分辨率音频驱动的人物动画的模型。与传统模型相比,这一突破使得其在影视、虚拟主播、数字人物等领域具有广泛应用前景。