![]()
机器之心报道
编辑:冷猫、陈陈
关于扩散模型的一切,宋飏等人写成了 460 多页的书。
扩散模型(Diffusion Models) ,几乎重塑了整个生成式 AI 的版图。从图像到音频,从视频到 3D 世界。
然而,当人们真正想理解它的原理时,却往往不得不在海量论文之间反复查找、跳转、拼凑概念。
如果你也曾厌倦了一遍又一遍地翻阅原始论文,这本专著《The Principles of Diffusion Models》,将成为你系统理解扩散模型的可靠指南与理论起点。
作者团队来自 Sony AI、OpenAI 和斯坦福大学。值得一提的是,书籍作者之一、原 OpenAI 战略探索团队负责人宋飏(Yang Song)也在作者栏中,不过,上个月,宋飏已经加入 meta,成为 meta 超级智能实验室(MSL)研究负责人。
![]()
本书系统梳理了扩散模型的发展脉络与核心思想,并深入解析了这些模型如何工作、为何有效、以及未来将走向何方。它不仅回顾了理论起点,也以统一的数学框架串联了变分、得分与流等多种视角。
可以说,本书既是研究者的系统参考资料,也是初学者进入扩散模型世界的友好入门读物。
![]()
论文地址:https://arxiv.org/pdf/2510.21890
不过,理解该书需要一定的基础(因为 460 多页的研究几乎每一章都贯穿着严密的数学推导与公式展开),主要面向具有深度学习基础,或具备深度生成建模初步认识的研究人员、研究生及从业者。
通过阅读本书,读者将能够清晰了解到扩散模型的起源、主要公式之间的联系,以及当今方法如何实现可控性和速度,从而催生下一代基于扩散的生成模型:流图模型族。此外,你还可以学到:
统一的视角,将变分自编码器 (VAE)、基于得分(基于能量)和基于流(归一化流)的方法联系起来 —— 所有这些方法都可视为变量随时间变化的简单过程。引导和数值求解器如何使生成过程更快、更可控。流图模型(例如,一致性模型、一致性轨迹模型、平均流)的兴起如何塑造下一代生成式人工智能。
有网友表示:「这是一本非常详尽的关于扩散模型原理的书籍。通过仔细阅读,我们可以学习扩散模型背后的所有核心概念。」
![]()
以下篇幅,我们将整理本文的基本内容和结构,简要概括这一史上最全的扩散模型理论研究的核心亮点。
核心内容
与传统生成模型直接学习从噪声到数据的映射不同,扩散模型将生成过程视为一种随时间逐步演化的变换,通过多阶段的推理不断将粗略结构细化为精致细节。围绕这一核心思想,该领域的研究者从三种主要视角对其进行了发展:变分方法(variational)、基于得分的方法(score-based)和基于流的方法(flow-based)—— 这些视角为理解与实现扩散建模提供了互补的框架。
在此基础上,研究者进一步探讨扩散模型如何实现更高效的样本生成、在生成过程中获得更强的可控性,并推动基于扩散原理的独立生成建模形式的发展。
扩散模型的基础原理
本部分回溯扩散模型的起源,系统梳理塑造该领域的三种奠基性视角。
![]()
扩散模型的统一化与原理化视角。
该图以可视化方式展示了经典生成建模方法 —— 变分自编码器(VAE)、能量模型(EBM) 与归一化流(NF)—— 与其在扩散模型中的对应形式之间的联系。每一条垂直路径代表一条概念脉络,最终汇聚于连续时间框架。这三种视角提供了不同但在数学上等价的解释路径,共同构成了扩散建模的统一理论图景。
Part A:深度生成建模导论
本文作者在第 1 章从回顾深度生成建模的基本目标出发。其核心任务是:给定一组数据样本,构建一个能够生成新的样本的模型,使这些生成样本看起来仿佛来自同一个潜在的(通常未知的)数据分布。
多种方法通过不同途径实现这一目标:有的显式地通过概率模型学习数据的分布,有的则隐式地通过学习一种从噪声到数据的变换。本文将阐述这些模型如何利用神经网络表示数据分布、如何从样本中学习,以及如何生成新的样本。
本章最后给出了主要生成建模框架的分类体系,并突出它们的核心思想与关键区别,为理解后续的扩散模型奠定基础。
![]()
扩散模型研究视角的时间线。
Part B:扩散模型的核心视角
在前一部分介绍了深度生成建模的总体目标与机制之后,本部分将焦点转向扩散模型 —— 这一类将生成过程视为 “从噪声到数据的逐步转化” 的方法。本文探讨三种相互关联的理论框架,它们都包含两个关键过程:
正向过程(forward process):逐步向数据中加入噪声;反向过程(reverse-time process):通过一系列模型近似地实现逐步去噪。
变分视角(Variational View, 第 2 章)
源自变分自编码器(Variational Autoencoders, VAE),该视角将扩散过程理解为通过变分目标学习去噪过程的建模方式,从而形成了去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPMs)。这一视角为扩散建模提供了概率推断与优化的基础。
得分视角(Score-based View, 第 3–4 章)
起源于能量模型(Energy-based Models, EBMs),并在噪声条件得分网络(Noise Conditional Score Networks, NCSN)中得到发展。该方法通过学习得分函数 —— 即对数数据密度的梯度 —— 来指导如何逐步去除噪声。
在连续时间设定下,第 4 章进一步提出 Score SDE 框架,将去噪过程描述为随机微分方程,并指出其确定性对应形式是常微分方程。这一视角将扩散建模与经典微分方程理论紧密相连,为算法分析与设计提供了坚实的数学依据。
流视角(Flow-based View, 第 5 章)
基于归一化流(Normalizing Flows),并由流匹配(Flow Matching)进一步推广。该视角将生成建模表述为一种连续的流动变换,通过 ODE 描述样本从简单先验分布逐步 “运输” 至数据分布的过程。其演化由速度场控制,明确刻画了概率质量随时间的变化方式。
这种基于流的表述不仅适用于从先验到数据的生成任务,还可推广至更一般的分布到分布(distribution-to-distribution)转换问题,即学习连接任意源分布与目标分布的流动过程。
各视角的统一与联系(第 6 章)
虽然上述三种视角在形式上有所不同,但第 6 章展示了它们之间的深层统一性:
它们都通过某种条件化策略将学习目标转化为可处理的回归问题更本质地,它们都描述了同一个概率分布随时间演化的过程,即从先验分布逐渐演化至数据分布。这种演化遵循 Fokker–Planck 方程,可视为密度的连续时间变量变换,从而在随机与确定性表述之间保持一致性。扩散模型与最优传输的联系(第 7 章)
由于扩散模型本质上可视为一种分布传输方法,第 7 章进一步探讨其与经典最优传输理论及薛定谔桥(Schrödinger bridge)之间的联系 —— 后者可视为带熵正则化的最优传输问题。
本章回顾了静态与动态两种表述形式,并解释它们与连续性方程及 Fokker–Planck 方程之间的关系。
扩散采样的控制与加速
在统一了扩散模型的基础原理之后,我们将目光转向其高效生成的实际应用层面。从扩散模型中进行采样,本质上相当于求解一个微分方程。然而,这一过程通常计算代价较高。本部分重点探讨如何通过改进的采样方法和学习型加速技术来提升生成的质量、可控性与效率。
Part C:从扩散模型中进行采样
扩散模型的生成过程呈现出一种独特的由粗到细逐步精化的特征:模型通过逐步去除噪声,使生成样本的结构与细节逐渐变得更加连贯和清晰。
这种特性带来了性能与效率之间的权衡:
优势:该过程允许对生成进行细粒度的控制。通过在学习得到的、随时间变化的速度场中加入引导项,可以在微分方程(ODE)流动的轨迹上施加外部约束,从而根据用户意图引导生成过程,实现对输出结果的可控性。劣势:由于生成过程依赖于多步迭代积分,其采样速度通常显著慢于单步生成模型。
本部分重点探讨在推理阶段(inference time)提升生成性能的方法,即在无需重新训练模型的前提下,提高扩散模型的生成质量、可控性与采样效率。
引导式生成(第 8 章)
本章介绍了诸如分类器引导(classifier guidance)与无分类器引导(classifier-free guidance)等方法,使生成过程能够根据用户定义的目标或属性进行条件控制。在此基础上,本文进一步讨论如何通过引入偏好数据集,使扩散模型的生成行为与人类偏好更加一致,从而实现偏好对齐。
基于数值求解器的快速生成(第 9 章)
通过采用先进的数值求解器,可以在更少的反向积分步骤中近似模拟扩散反过程,从而在显著降低计算成本的同时保持生成质量。这种方法在不牺牲样本保真度与多样性的前提下,能够实现高效、稳定的快速采样。
Part D:快速生成模型的学习
在改进传统采样算法的基础上,本部分进一步探讨如何直接学习能够近似扩散过程的快速生成模型,以实现高效的样本生成。该思路的核心在于不再依赖多步积分推理,而是通过模型学习获得对扩散动态的直接近似,从根本上提升生成速度与可扩展性。
基于蒸馏的方法(Distillation-based Methods, 第 10 章)
此类方法的主要思想是:训练一个学生模型模仿一个已训练好的、较慢的教师扩散模型的行为。
与传统的模型压缩不同,这里的目标并非缩减教师模型的参数规模,而是让学生模型能够以显著更少的积分步数 —— 通常仅需几步甚至单步 —— 重现教师模型的采样轨迹或输出分布。这种基于蒸馏的加速策略能够在保持生成质量与分布一致性的前提下,大幅降低生成时间,实现快速推理。
从零开始的学习(第 11 章)
鉴于扩散模型的采样过程可形式化为常微分方程的求解,该方法旨在直接从零开始学习该 ODE 的解映射,亦即流映射(flow map),而无需依赖任何教师模型
通过这一方式,模型可以:直接将噪声映射为数据样本;或者在解轨迹上执行任意时刻到任意时刻的跳跃式生成,从而高效地模拟扩散动态。
这种从零学习的框架消除了多步采样的时间瓶颈,为端到端的快速生成系统提供了严谨的数学基础与可行的实现路径。
本书的涵盖范围
本书的编写目标是建立具有持久价值的理论体系。从自上而下的视角出发,全书围绕一个统一的核心原理展开:
构建连续时间动力系统,使其能够将一个简单的先验分布逐渐传输至数据分布,并确保在任意时刻,其边缘分布与由数据向噪声的预设正向过程所诱导的边缘分布一致。
基于这一原理,本书系统地推导与阐述了扩散模型的基本机制:
构建了支持采样的随机流与确定性流(stochastic and deterministic flows);说明了如何通过引导机制(guidance)对生成轨迹进行控制;并阐明了如何利用数值求解器(numerical solvers)实现采样过程的加速。
在此基础上,本文探讨了源于扩散原理的快速生成模型,包括基于蒸馏的方法和流映射模型。
通过这些内容,读者将能够:
在统一的理论框架下准确定位新提出的研究工作;理解不同方法背后的原理逻辑与联系;并具备设计与改进新一代生成模型的能力。
然而,本书并不试图成为扩散模型领域的全面综述,也不涉及以下快速演进且依赖经验的内容:
各类模型架构设计、训练策略与超参数选择;各方法间的实证性能比较,数据集与排行榜;特定领域或模态的应用实例;系统级部署方案与大规模训练范式以及硬件实现与工程优化。
这些主题更新迅速,更适合通过专题综述、开放源码仓库及实现指南加以介绍与总结。
更多详细信息和技术细节,请参阅原论文。





京公网安备 11011402013531号