OpenAI发布sCM模型：两步采样提升50倍速度，重塑生成式AI格局

要点速达👈

🚀 sCM模型仅需两步采样，速度比传统扩散模型快50倍。
📊 在ImageNet 512x512上，sCM的FID分数接近最优扩散模型，但计算量仅为10%。
🔧 TrigFlow框架简化了sCM的理论和训练，支持大规模模型的稳定训练。
📈 sCM相比VSD样本更稳定，避免了模式坍塌现象。
🧠 sCM仍需依赖预训练的扩散模型，在图像质量上与其略有差距。

数智朋克讯，OpenAI近日发布了sCM（新型连续时间一致性模型），为生成式AI领域带来颠覆性进展。sCM的最大亮点是其在生成速度上的突破，通过两步采样实现了比传统扩散模型快50倍的生成速度，尤其在处理视频、图像、三维模型和音频等任务时展现出强大优势。

扩散模型虽在生成式AI中表现出色，但其采样速度一直是短板。以往的扩散模型需要多达几十至几百步的采样，导致效率低下。虽然一些蒸馏技术如直接蒸馏、对抗蒸馏和变分分数蒸馏（VSD）等能在一定程度上加速采样，但其高计算成本和复杂的训练过程限制了广泛应用。相比之下，sCM只需两步即可完成高质量样本生成，不仅简化了理论框架，还解决了大规模数据集训练的稳定性问题。

sCM并非完全独立于扩散模型，而是基于扩散模型原理进行改进和优化。其核心技术是学习函数 $f θ (x t, t)$ ，在时间步上逐步消除图像噪声。借助PF-ODE轨迹，sCM在两步内完成图像去噪和生成的过程，避免了传统多步迭代的效率问题。尽管过程并非一步到位，但通过连续的方向调整，sCM能快速接近最终清晰的样本质量。

OpenAI还发布了相关的研究论文，提供了sCM的理论基础和实验结果。研究表明，在ImageNet 512x512上，sCM的FID分数（越低越好）与需要63步采样的扩散模型相近，且有效采样计算量不到传统方法的10%。在CIFAR-10和ImageNet等数据集上，sCM的FID分数分别达到了2.06和1.88，与最优扩散模型的差距在10%以内。

sCM的速度提升得益于TrigFlow框架。OpenAI将扩散过程、PF-ODE等复杂理论整合为更简洁的表达式，不仅让训练过程更稳定，还能扩展至大规模模型。TrigFlow的设计使得sCM在ImageNet 512x512分辨率上成功训练出15亿参数的模型，是目前最大规模的连续时间一致性模型。

为了提升训练的稳定性，sCM引入了多个关键改进，如自适应双归一化、位置时间嵌入、改进的时间条件策略等，这些创新显著降低了模型训练的不稳定性。OpenAI特别强调了sCM在自适应权重、渐进式退火和扩散微调上的改进，使得该模型更适合实际应用。

尽管sCM在生成速度和质量上表现亮眼，但也存在一定局限。数智朋克注意到，sCM的训练过程仍然依赖于预训练的扩散模型，图像质量与“教师”模型相比略逊一筹。此外，FID分数虽然是评估生成模型的一项重要指标，但在实际应用中，它并不总能准确反映图像的视觉质量。

在与变分分数蒸馏（VSD）的对比中，sCM在样本多样性和高引导尺度下的稳定性上表现更优，避免了模式坍塌现象。但sCM的最终质量还是受限于预训练模型的性能，这一点在图像质量上存在一定的瓶颈。

OpenAI发布sCM模型：两步采样提升50倍速度，重塑生成式AI格局

数智资讯订阅