当前位置: 首页 » 资讯 » 新科技 » 正文

NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA

IP属地 中国·北京 新智元 时间:2025-11-23 20:08:23


新智元报道

编辑:LRST

扩散概率生成模型(Diffusion Models)已成为AIGC时代的重要基础,但其推理速度慢、训练与推理之间的差异大,以及优化困难,始终是制约其广泛应用的关键问题。近日,被NeurIPS 2025接收的一篇重磅论文EVODiff给出了全新解法:来自华南理工大学曾德炉教授「统计推断,数据科学与人工智能」研究团队跳出了传统的数值求解思维,首次从信息感知的推理视角,将去噪过程重构为实时熵减优化问题。

从Stable Diffusion的文生图到Sora的文生视频,扩散模型凭借其卓越的生成质量始终占据着图像和视频生成领域的主导地位。然而,这种高质量的生成往往伴随着巨大的代价(包括最近的扩散语言模型),它需要通过数十甚至上百步的迭代,从纯噪声中逐步恢复图像。

这就带来了两个让业界头疼的核心矛盾:

推理效率与质量的博弈:想快(减少步数),画质就崩;想画质好,就得忍受漫长的生成时间。

理论与实践的割裂:为了加速,业界提出了各种基于微分方程(ODE)的求解器(如DPM-Solver)。但这些方法往往更像是一种「数值近似技巧」,缺乏对扩散过程本质的解释。例如,为什么某些参数化方法(如预测噪声)效果不如预测数据?我们到底在优化什么?

更棘手的是,现有的许多SOTA加速算法(如LD3,DPM-Solver-v3)都依赖于参考轨迹Reference Trajectory)进行优化或者蒸馏。

也就是说,为了优化这10步的生成路径,你需要先跑一遍高精度的路径 (比如200步下的结果) 作为「参考答案」。

在实际应用中,不仅增加了巨大的计算开销,也限制了基础模型的泛化能力

华南理工大学「统计推断,数据科学与人工智能」团队提出的EVODiff,正是为了解决这两种核心的问题,不再修补ODE求解器的数值误差,而是回到了扩散模型的物理本源——熵(Entropy)


论文链接:https://openreview.net/forum?id=rKASv92Myl

EVODiff的核心洞察非常深刻:扩散模型的去噪过程,本质上就是一个不断减少不确定性、恢复信息的过程。


EVODiff的熵减路径的直观理解

在物理学中,熵代表系统的混乱程度。前向扩散过程是向图像中加噪,熵不断增加;反向去噪过程则是从混乱中恢复秩序,条件熵(Conditional Entropy)应当不断降低。

研究团队不仅在数学上严格证明了数据预测在推理生成过程中优于噪声预测,还提出了一种免参考」(Reference-free)的自适应方差优化框架(EVODiff)。

框架首次展现出,在不依赖于高成本「参考轨迹」优化的前提下,就能够获得比一些依赖参考轨迹的方法(如DPM-Solver-v3, LD3)更高效、且更优的生成质量。

在CIFAR-10上,仅需10步推理,FID评测指标即达到惊人的2.78,相比于同样是无需参考轨迹优化的DPM-Solver++,生成误差率降低了45.5% (从5.10到2.78)。


在CIFAR-10上与「Referenc-free」方法DPM-Solver++的视觉对比

论文作者李仕贵和陈炜均是华南理工大学数学学院的博士研究生。通讯作者是华南理工大学电子与信息学院的曾德炉教授。

为何「数据预测」完胜「噪声预测」?

在扩散模型社区,存在一个长期的经验性共识:在做推理生成时,直接使用预测干净数据(Data Prediction)的参数化方案,往往比使用噪声预测(Noise Prediction)的推理范式效果更好,这种现象尤其在较低步数下特别显著。

值得关注的是,这一现象与 MIT 何恺明(Kaiming He)团队最新发布的JiT架构 “Back to Basics: Let Denoising Generative Models Denoise” 中的核心洞察不谋而合! 何恺明团队从「流形假设」的角度出发,指出自然数据位于低维流形上,而噪声弥漫于整个高维空间,因此神经网络直接预测干净数据要比预测噪声容易得多。

如果说Back to Basics是从直觉和实证角度呼吁回归本源,那么EVODiff则是在数学层面为这一趋势提供了坚实的理论支撑。

此前,这个现象只是被经验地验证。而在EVODiff这个研究中,论文首次给出了严格的数学证明

根据信息论推导,EVODiff团队发现:

噪声预测路径:需要经过的间接计算。这就像是让你通过「猜测干扰项」来还原真相,中间的误差会随着噪声预测的误差而被放大。

数据预测路径:直接建立的映射则从路径上就极大地规避了误差的伸缩和混合效应。

团队数学证明了 「数据预测参数化」能更直接地最小化重建误差,并能更有效地降低条件熵。

这一理论贡献,不仅解释了 EVODiff 的高效性,也从理论上侧面印证了何恺明团队 最新的JiT 架构,为未来扩散模型的设计提供了坚实且有原则的数学基础,明确了关于参数化选择的争论。

寻找最优路径

熵感知方差优化

既然目标是「降低熵」,那么更准确地熵减便能提高推理效率。同时既然预测数据在理论上更高效,那么在具体的迭代中该怎么更高效地降低数据预测的条件熵呢?

EVODiff首先回顾了扩散模型高斯建模中条件熵与条件方差(Conditional Variance)正相关的特点。

也就是说,只要在每一步推理中动态调整方差至最小,就能以最快的速度逼近真实图像。

基于此,EVODiff构建了一个「无参考」的自适应优化框架。它无需任何昂贵的预计算「参考轨迹」,而是仅利用当前迭代步骤的状态差异,通过一个计算开销极低的闭式解(Closed-form Solution),就能动态且实时地计算出最优的方差控制参数。这确保了每一步都朝着最高效的收敛路径。

EVODiff框架解析

更优、更快、更智能

EVODiff(Entropy-aware Variance Optimized Diffusion Inference)不仅仅是一个理论框架,更是一套可以直接落地的实时指导算法。

EVODiff框架的先进性在于,它首次展现出在无须参考轨迹优化的前提下,就能获得比一些(如DPM-Solver-v3)基于参考轨迹优化的方法更高效、且更优的生成质量。

其核心特性可以概括为「三板斧」:

1. Reference-free(免参考)的极致轻量化

与需要预先计算高成本轨迹的EMS(经验模型统计)类方法不同,EVODiff完全依靠在线(On-the-fly) 计算。它利用当前迭代步骤中的状态差异,动态优化方差。这意味着它没有任何额外的训练成本或预处理开销,做到了真正的「拿来即用」。

2. 闭式解(Closed-form Solution)的极速计算

许多优化算法需要复杂的迭代求解,会拖慢推理速度。但EVODiff团队推导出了方差优化目标的闭式解。这意味着,获得最优参数几乎不需要消耗计算资源。实验数据显示,EVODiff在获得SOTA画质的同时,推理时间甚至略快于DPM-Solver++。

3. 普适性(Universality)

无论是像素空间的传统扩散模型(如EDM),还是目前最火的隐空间扩散模型(如Stable Diffusion),亦或是不同的噪声调度策略(LogSNR, EDM schedule),EVODiff都能无缝适配并带来提升。

SOTA战绩

「免参考」全面超越「有参考」

EVODiff的「免参考」框架并非空洞理论。在NeurIPS 2025的评审中,实验数据显示,免参考路径在质量和效率上均超越了依赖参考轨迹的方法(DPM-Solver-v3),并在8-10NFE左右就超过了依赖参考轨迹的LD3方法(ICLR 2025 Oral),给审稿人留下了深刻印象。

CIFAR-10 (EDM模型):刷新纪录的低步数表现

在极低步数(NFE=10)的挑战下,EVODiff的表现堪称「降维打击」:

基准(DPM-Solver++):FID 5.10

EVODiff:FID 2.78

提升幅度:错误率降低了惊人的45.5%


ImageNet-256 (ADM模型):高分辨率下的稳健

在高分辨率图像生成上,EVODiff同样展现了统治力。为了达到相同的SOTA级画质:

传统方法需要:20 NFE

EVODiff仅需:15 NFE

效率提升:25%


LSUN-Bedrooms (隐空间扩散模型):工业级模型的完美适配

针对当前工业界主流的隐空间模型(Latent Diffusion Model),EVODiff在LSUN-Bedrooms数据集上:

相比UniPC,FID分数提升43.4%(在5 NFE下)。

生成速度提升5.3%

这是一个非常关键的信号:EVODiff不仅适用于学术小模型,更能直接赋能Stable Diffusion等工业级大模型。




EVODiff与Reference-free方法在不同指标下的全面对比


EVODiff与Reference-free和Reference-based的方法的全面对比评估

视觉实测:告别「多手多脚」的伪影噩梦

除了冷冰冰的数据,EVODiff在视觉感官上的提升更为直观。

文本生成图像(Text-to-Image)任务中,低步数推理往往会导致图像结构崩坏,比如生成出扭曲的肢体或模糊的背景。

论文展示了一个经典的测试案例:提示词"An astronaut riding a horse"(宇航员骑马)

竞品方法(UniPC/DPM++):在低步数下,马匹经常会出现「五条腿」的解剖学错误,或者宇航员与马的融合显得极不自然。

EVODiff:生成的图像结构严谨,马匹四肢正常,光影过渡自然,展现了极高的语义对齐度和视觉连贯性。


EVODiff在高效文生图上的表现



在文生图上仅用简单的prompt,例如「Giant caterpillar riding a bicycle」和「a photograph of an astronaut riding a horse」,EVODiff能生成高保真、语义连贯且正确的图像,而其他竞争方法则有严重伪影

德国AI公司Mindverse在其专题报道中特别指出了这一点:「EVODiff在文本生成图像任务中展现了‘更自然、更一致、更少伪影’的优势,即使在使用简单的提示词时也是如此。」

影响力与未来

从学术突破到工业落地

EVODiff的发表,不仅仅是多了一个SOTA算法框架,它标志着扩散模型推理的研究进入了理论驱动的新阶段。

以往,我们为了加速,往往是在「盲改」求解器或者特定的优化和适当的蒸馏。而EVODiff告诉我们:只要你从熵感知信息流优化的角度去理解去噪过程,便能从原则上去设计一个既有效率提升又有生成质量提升的双赢范式。

德国Mindverse的报道评价道:「EVODiff的引入代表着扩散推理优化向前迈出了一步……它系统地降低条件熵的能力,为更高效、更高质量的生成模型开辟了新的可能性。」

参考资料:

https://openreview.net/forum?id=rKASv92Myl

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。