要点速达👈
- 🚀 sCM模型仅需两步采样,速度比传统扩散模型快50倍。
- 📊 在ImageNet 512x512上,sCM的FID分数接近最优扩散模型,但计算量仅为10%。
- 🔧 TrigFlow框架简化了sCM的理论和训练,支持大规模模型的稳定训练。
- 📈 sCM相比VSD样本更稳定,避免了模式坍塌现象。
- 🧠 sCM仍需依赖预训练的扩散模型,在图像质量上与其略有差距。
数智朋克讯,OpenAI近日发布了sCM(新型连续时间一致性模型),为生成式AI领域带来颠覆性进展。sCM的最大亮点是其在生成速度上的突破,通过两步采样实现了比传统扩散模型快50倍的生成速度,尤其在处理视频、图像、三维模型和音频等任务时展现出强大优势。
扩散模型虽在生成式AI中表现出色,但其采样速度一直是短板。以往的扩散模型需要多达几十至几百步的采样,导致效率低下。虽然一些蒸馏技术如直接蒸馏、对抗蒸馏和变分分数蒸馏(VSD)等能在一定程度上加速采样,但其高计算成本和复杂的训练过程限制了广泛应用。相比之下,sCM只需两步即可完成高质量样本生成,不仅简化了理论框架,还解决了大规模数据集训练的稳定性问题。
sCM并非完全独立于扩散模型,而是基于扩散模型原理进行改进和优化。其核心技术是学习函数fθ(xt,t)fθ(xt, t),在时间步上逐步消除图像噪声。借助PF-ODE轨迹,sCM在两步内完成图像去噪和生成的过程,避免了传统多步迭代的效率问题。尽管过程并非一步到位,但通过连续的方向调整,sCM能快速接近最终清晰的样本质量。
OpenAI还发布了相关的研究论文,提供了sCM的理论基础和实验结果。研究表明,在ImageNet 512x512上,sCM的FID分数(越低越好)与需要63步采样的扩散模型相近,且有效采样计算量不到传统方法的10%。在CIFAR-10和ImageNet等数据集上,sCM的FID分数分别达到了2.06和1.88,与最优扩散模型的差距在10%以内。
sCM的速度提升得益于TrigFlow框架。OpenAI将扩散过程、PF-ODE等复杂理论整合为更简洁的表达式,不仅让训练过程更稳定,还能扩展至大规模模型。TrigFlow的设计使得sCM在ImageNet 512x512分辨率上成功训练出15亿参数的模型,是目前最大规模的连续时间一致性模型。
为了提升训练的稳定性,sCM引入了多个关键改进,如自适应双归一化、位置时间嵌入、改进的时间条件策略等,这些创新显著降低了模型训练的不稳定性。OpenAI特别强调了sCM在自适应权重、渐进式退火和扩散微调上的改进,使得该模型更适合实际应用。
尽管sCM在生成速度和质量上表现亮眼,但也存在一定局限。数智朋克注意到,sCM的训练过程仍然依赖于预训练的扩散模型,图像质量与“教师”模型相比略逊一筹。此外,FID分数虽然是评估生成模型的一项重要指标,但在实际应用中,它并不总能准确反映图像的视觉质量。
在与变分分数蒸馏(VSD)的对比中,sCM在样本多样性和高引导尺度下的稳定性上表现更优,避免了模式坍塌现象。但sCM的最终质量还是受限于预训练模型的性能,这一点在图像质量上存在一定的瓶颈。