当前位置：首页 » 资讯 » 新科技 » 正文

训练到推理「瘦身」演进：首篇高效扩散语言模型（dLLM）深度综述

IP属地中国·北京 机器之心Pro 时间：2026-03-10 10:17:34

在生成式 AI 的浪潮中，自回归（Autoregressive, AR）模型凭借其卓越的性能占据了统治地位。然而，其「从左到右」逐个预测 Token 的串行机制，天生限制了并行生成的可能性。
作为一种极具潜力的替代方案，扩散语言模型（Diffusion Language Models, dLLMs）引入了全新的非自回归范式：通过迭代去噪来优化文本序列。这种机制不仅支持双向上下文建模，更允许并行更新多个 Token，为更快的生成速度和更强的可控性打开了大门。
但在「美好愿景」与「实际落地」之间，横亘着一道巨大的鸿沟 ——效率。
相比于高度成熟的 AR 模型，dLLM 面临着训练成本高昂、推理步骤繁琐、KV Cache 难以复用等棘手问题。为了厘清这一新兴领域的关键技术路径，自动化所、香港中文大学与香港大学等机构撰写了一篇最新的综述论文，该综述系统地梳理了高效 dLLM 的研究进展，从训练、推理、上下文及系统框架等维度，拆解 dLLM 是如何一步步跨越效率瓶颈的。

论文标题：Efficient Diffusion Language Models: A Comprehensive Survey论文链接：https://www.authorea.com/users/1021451/articles/1381451-efficient-diffusion-language-models-a-comprehensive-survey项目仓库：https://github.com/FelixMessi/Awesome-Efficient-dLLMs
一、训练效率：如何站在 AR 的肩膀上起飞？
dLLM 若要从头训练，不仅数据需求大，算力消耗也极其惊人。因此，如何「借力」现有的预训练模型成为关键。
论文将训练侧的提效策略主要归纳为「AR 到 dLLM 的迁移」与「架构优化」。
从 AR 到扩散模型的无缝迁移：
与其从零开始，不如利用已有的 AR 模型权重。DiffuLLaMA 和 Dream 等工作探索了通过调整注意力掩码（Attention Mask）或引入特定的过渡微调阶段，将 AR 模型的能力「蒸馏」或「转换」为扩散模型。更有趣的是Block Diffusion（块扩散）的思路，它保留了部分自回归的结构（块与块之间串行），但在块内部进行并行扩散，这种折中方案在保留 AR 预训练优势的同时，显著降低了适应成本。
架构层面的「加减法」：
为了减少计算量，研究人员开始对架构动刀。E2D2 采用了编码器 - 解码器（Encoder-Decoder）架构，让编码器处理清晰的输入，解码器专注于去噪，从而复用特征并降低训练成本。此外，MoE（混合专家）架构也被引入 dLLM（如 LLaDA-MoE），通过稀疏激活在保持模型容量的同时减少推理时的参数计算量。
二、推理加速：并行解码与采样策略的博弈
推理速度是 dLLM 能否落地的核心痛点。由于扩散过程本质上是多步迭代，如果每一步都全量计算，延迟将无法接受。综述将推理加速主要分为「并行解码」和「压缩技术」两大类。

1. 并行解码（Parallel Decoding）
dLLM 的核心优势在于可以一次性更新多个 Token。但具体更新哪些？更新多少？
启发式方法（Heuristic Methods）：这类方法不需要重新训练模型，而是利用「不确定性」作为信号。例如 Fast-dLLM 会计算每个 Token 的置信度，只有置信度高的 Token 才会保留，低的则继续去噪。还有基于「属性感知」的采样，利用生成的局部一致性或早期收敛现象来提前终止计算。
基于学习的方法（Learning-based Methods）：这是一种更「主动」的策略。通过训练额外的轻量级网络或使用强化学习（RL），让模型自己学会规划「这一步该解开哪些 Token」。dParallel和LSD等工作通过蒸馏技术，让学生模型用更少的步数模仿教师模型的采样轨迹。
2. 压缩与量化
除了少走几步，把模型「变小」也是硬道理。虽然量化（Quantization）在 AR 模型中已很成熟，但 dLLM 对异常值和时间步（Timestep）高度敏感。QDLM和Quant-dLLM等工作专门针对扩散过程中的激活分布特点，设计了细粒度的量化方案，甚至实现了 2-bit 的极低比特量化。
三、KV Cache 管理：应对「动态」挑战
这是 dLLM 与 AR 模型在底层机制上最大的不同点，也是工程优化的深水区。
在 AR 模型中，历史 Token 是固定的，因此 KV Cache 可以一直复用。但在 dLLM 中，整个序列在每一步去噪中都在变化，双向注意力机制意味着所有 Token 互相依赖，导致标准的 KV Cache 失效。

综述总结了三种应对策略：
1.架构范式调整：采用 Block Diffusion 或 DualCache 设计，将序列分为「固定的前缀」和「动态的后缀」，只对变化的部分进行重计算。
2.自适应刷新（Adaptive Refresh）：利用 Token 的稳定性。如果某个 Token 的特征在两步之间变化很小（Similarity Threshold），就直接复用上一轮的 Cache，否则才更新。dKV-Cache 和 d²Cache 就是此类策略的代表。
3.稀疏化与驱逐（Sparsity & Eviction）：既然存不下，就只存重要的。通过注意力显著性（Attention Saliency）判断哪些 Token 对当前生成最关键，动态驱逐不重要的 KV 对，从而在有限显存下支持更长的序列。
四、投机解码：dLLM 的「自我博弈」与「协同作战」
投机解码（Speculative Decoding, SD）在 dLLM 中呈现出两种独特的形态：
dLLM-only 自我投机：模型自己预测未来的中间状态（Self-Speculation），或者利用 "Jump-Share" 机制，在迭代中跳过某些去噪步骤并共享计算结果。dLLM-AR 协同（Synergy）：结合 AR 和 dLLM 的长处。一种思路是用小的 AR 模型辅助 dLLM 判断采样的联合概率；另一种则是用 dLLM 快速生成草稿（Draft），再由大参数的 AR 模型进行验证（Verify）。这种 "Diffusion-as-Drafter" 的模式正在成为提升 AR 模型整体吞吐量的新热点。
五、总结与展望：迈向生产环境
除了上述算法层面的优化，论文还探讨了上下文扩展（Context Scalability）和系统框架（System framework）。目前，包括 SGLang 在内的主流推理引擎已开始初步支持 dLLM，但相比 vLLM 对 AR 模型的那种极致优化，dLLM 的生态系统仍处于「基建」阶段。
未来值得关注的方向：
1.统一的评测标准：目前的效率对比往往基于不同的假设，急需建立涵盖训练成本、显存占用、端到端延迟的统一 Benchmark。
2.硬件感知的内核优化：目前的加速很多停留在算法层，缺乏针对 FlashAttention 那样底层的 CUDA Kernel 优化，这限制了理论加速比向实际墙钟时间（Wall-clock time）的转化。
3.多模态融合：dLLM 天然适合多模态任务（因为图像生成本身多为扩散模型），如何在多模态场景下实现统一的高效推理，将是下一个爆发点。
这篇综述不仅是对现有技术的总结，更是一份「作战地图」。它清晰地表明，dLLM 正从纯粹的学术探索走向工业级应用。随着 KV Cache 管理、并行解码策略的日益成熟，我们有理由相信，在不久的将来，dLLM 将在需要高质量、高可控性生成的场景中，成为 AR 模型强有力的竞争者甚至互补者。
延伸阅读与资源
纸上得来终觉浅。为了方便大家查阅文中提到的所有算法实现及后续更新的论文，作者整理了配套的 GitHub 资源库。如果你关注扩散语言模型推理加速、模型压缩或高性能计算，建议将此链接加入书签：
https://github.com/FelixMessi/Awesome-Efficient-dLLMs
该仓库实时追踪 dLLM 领域的最新动态，欢迎 Star 关注或贡献你的代码！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

上海人太爱“小龙虾”了！300人排队到百度智能云免费安装OpenClaw

大模型团队为什么更容易出现人才动荡

腾讯混元开源首个面向世界模型的强化学习后训练框架WorldCompass

高原光热项目运维不再难！中广核阿里“零碳”光储热电示范项目仿真系统硬核上线

百度萝卜快跑恢复阿联酋迪拜与阿布扎比的全无人测试及运营服务

苹果宣传MacBook Neo笔记本，Finder吉祥物意外爆红

全站最新

上海人太爱“小龙虾”了！300人排队到百度智能云免费安装OpenClaw

大模型团队为什么更容易出现人才动荡

腾讯混元开源首个面向世界模型的强化学习后训练框架WorldCompass

高原光热项目运维不再难！中广核阿里“零碳”光储热电示范项目仿真系统硬核上线

热门推荐

上海人太爱“小龙虾”了！300人排队到百度智能云免费安装OpenClaw

大模型团队为什么更容易出现人才动荡

腾讯混元开源首个面向世界模型的强化学习后训练框架WorldCompass

高原光热项目运维不再难！中广核阿里“零碳”光储热电示范项目仿真系统硬核上线

加拿大将允许TikTok在该国继续运营

百度启动最大规模暑期实习招聘，90%为AI相关职位

OPPO今日官宣涨价新一轮手机涨价潮来袭

百度萝卜快跑恢复阿联酋迪拜与阿布扎比的全无人测试及运营服务

苹果宣传MacBook Neo笔记本，Finder吉祥物意外爆红

奔驰南非工厂探求长城汽车合作，缓解产能过剩，应对美国关税冲击

脑机接口首入政府工作报告，离全面落地还有多远？

百度启动史上最大规模暑期实习招聘，超九成岗位与AI相关

平均月薪超6万春招AI岗位量暴涨12倍

焕新极氪007GT预计价格上调？极氪汽车：暂未确定

合肥高新区推出15条硬核举措“养龙虾”，最高补贴1000万元