OpenAI上新sCM！生成速度提升50倍，Scaling Law 再创奇迹：两步采样就出图，实时视频时代或将开启！-51CTO.COM

传统扩散模型要过时了？OpenAI找到一种新方法，直接把生成速度提高50倍！

扩散模型在生成式 AI 领域的重要性不言而喻，把生成逼真的图像、3D 模型、音频和视频变为了现实。

但是，扩散模型依然有个致命bug——采样速度太慢。

OpenAI研究的新方法，被称为 sCM（连续时间一致性模型）。

sCM 在仅使用两个采样步骤的情况下，实现了与领先扩散模型相当的样本质量。

来感受下 sCM 的速度：

那么sCM为什么这么快呢，我们一起看看。

1.提速50倍：Scaling Law 再次出奇迹

在刚才的实例里，右侧蝴蝶逐步清晰，展示了当前扩散模型的能力。

该方法的采样通常需要数十到数百个连续步骤来生成单个样本，这限制了它们在实时应用中的效率和可扩展性。

虽然，此前已经开发了各种蒸馏技术来加速采样，但它们往往伴随着一些限制，例如高计算成本、复杂的训练过程和降低的样本质量。

而sCM则不同，在此前一致性模型的研究基础上，OpenAI简化了公式，并进一步稳定了连续时间一致性模型的训练过程。

不得不说，Scaling Law 还是大力出奇迹。

这个方法一下使得OpenAI研究人员能将连续时间一致性模型的训练扩展到前所未有的规模！

具体有多大呢？——在 ImageNet 数据集上以 512×512 分辨率处理 15 亿参数的模型。

sCM 仅使用两个采样步骤就能生成与扩散模型相当的样本质量，实现了大约 50 倍的时间加速。例如，OpenAI的最大模型（15 亿参数）在一块 A100 GPU 上只需 0.11 秒即可生成一个样本，而无需任何推理优化。

OpenAI这波太牛了，通过系统优化，这个提速来得迅猛又轻松，感觉再升级的DALL-E 4已经不远了！

报告还提到，为了进行严格的评估，OpenAI研究者通过比较样本质量（使用标准的 FID 得分，分数越低越好）和有效采样计算（估算生成每个样本所需的总计算成本）来对 sCM 与其他最先进的生成模型进行了基准测试。

结果如下所示，两步 sCM 生成的样本质量可与最佳的先前方法相媲美，而其有效采样计算成本不到 10%，大大加快了采样过程。

图片

2.工作原理揭秘：为什么一致性模型能提速？

一致性模型与扩散模型不同：扩散模型需要通过大量去噪步骤逐步生成样本；而一致性模型的目标是在一步中将噪声直接转换为无噪声的样本。

看图表会更加直观，下图中：蓝线代表扩散模型逐步采样的过程，而红线则展示了一致性模型更直接、加速的采样路径。

通过使用一致性训练或一致性蒸馏等技术，一致性模型可以被训练成在显著减少步骤的情况下生成高质量样本，这使它们在需要快速生成的实际应用中极具吸引力。

图片

在研究中，OpenAI团队在ImageNet 512x512上训练了一个具有15亿参数的连续时间一致性模型，以下是一些两步采样结果。

图片

sCM的训练方式也很有趣，——偷师扩散模型，即通过从一个预训练的扩散模型中提取知识得以训练。

一个重要的发现是，随着sCM和教师扩散模型的共同扩展，sCM的性能按比例提高。具体来说，样本质量的相对差异（通过FID分数比率来衡量）在不同规模的模型中保持一致，这导致样本质量的绝对差异在模型扩展时逐渐减小。此外，增加sCM的采样步骤进一步缩小了质量差距。值得注意的是，sCM的两步采样已经与教师扩散模型的采样质量相当（相对差异不到10%），而教师扩散模型需要数百步才能生成样本。

图片

3.写在最后：仍有缺陷，仍需探索

从上图也可以看出，目前最好的sCM仍然依赖于预训练的扩散模型进行初始化和蒸馏，因此与教师扩散模型相比，样本质量仍存在小而持续的差距。

此外，报告中写道，FID作为衡量样本质量的指标本身也有局限性；接近的FID分数并不总是反映实际的样本质量，反之亦然。因此，sCM的质量可能需要根据特定应用的需求以不同方式进行评估。

OpenAI表示，将继续致力于开发具有更快推理速度和更高样本质量的生成模型，相信这些进展将为实时、高质量生成式AI在广泛领域中的应用开启新的可能性。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/