当前位置: 首页 » 资讯 » 新科技 » 正文

复旦引望提出Masked Diffusion端到端自动驾驶新框架

IP属地 中国·北京 机器之心Pro 时间:2025-12-25 14:18:03



随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范式转移。然而,将感知、推理与规划压缩进单一模型后,主流的自回归(Auto-regressive)生成范式逐渐显露出局限性。现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在本质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶意图(如切入匝道、避让行人、靠边停靠),再反推当前的短期操控动作。此外,基于模仿学习的模型容易陷入「平均司机」陷阱,倾向于拟合数据分布的均值,导致策略平庸化,难以在激进博弈与保守避让之间灵活切换。

针对上述痛点,复旦大学与引望智能联合提出了 WAM-Diff 框架。该研究创新性地将离散掩码扩散模型(Discrete Masked Diffusion)引入 VLA 自动驾驶规划,并结合稀疏混合专家(MoE)架构与在线强化学习(GSPO),构建了一套不再受限于单向时序的生成式规划系统。

在权威评测基准 NAVSIM 中,WAM-Diff 展现了卓越的性能,在 NAVSIM-v1 和 v2 榜单上分别取得了91.0 PDMS和89.7 EPDMS的 SOTA 成绩,有力证明了非自回归生成范式在复杂自动驾驶场景下的巨大潜力。



论文标题: WAM-Diff: A Masked Diffusion VLA framework with MoE and online Reinforcement Learning for Autonomous Driving论文链接: https://arxiv.org/abs/2512.11872开源项目: https://github.com/fudan-generative-vision/WAM-Diff

核心创新:重新思考生成逻辑


从数值回归到离散序列生成

为了在统一的特征空间内实现对世界的理解与动作规划,WAM-Diff 首先引入了混合离散动作分词(Hybrid Discrete Action Tokenization)技术。研究团队将连续的 2D 轨迹坐标量化为高精度的离散 Token(误差控制在 0.005 以内),并将其与代表驾驶指令(如「左转」、「避让」、「停靠」)的语义 Token 置于共享词表中。

在此基础上,WAM-Diff 采用 Masked Diffusion 作为生成骨干。与逐个预测下一个 Token 的自回归模型不同,Masked Diffusion 从一个全掩码序列出发,利用双向上下文信息,在每一步迭代中并行预测所有位置的 Token。这种机制不仅大幅提升了推理效率,更重要的是赋予了模型全局优化的能力,使其能够同时利用过去和未来的信息来推断当前的最优动作。



Figure 1 : WAM-Diff 的模型总体架构图。

解码策略验证「反因果」规划的有效性

摆脱了「从左到右」的时序束缚后,模型该如何安排轨迹生成的优先级?WAM-Diff 深入探索了因果序(Causal)、反因果序(Reverse-Causal)和随机序(Random)三种解码调度策略。实验结果揭示了一个反直觉但极具价值的现象:反因果序策略在闭环指标上表现最佳。这意味着,先确定远处的终点状态,再倒推近处的轨迹细节,这种「以终为始」的生成逻辑能显著提升规划的一致性与安全性。这一发现从模型层面验证了人类驾驶员在复杂博弈场景下的直觉思维。



Figure 2 : Masked Diffusion 的不同解码调度策略。

MoE 混合专家与 GSPO 在线强化学习

面对多变的驾驶场景,单一模型往往难以兼顾各种极端情况。WAM-Diff 通过在主干网络中集成 LoRA-MoE(Low-Rank Adaptation Mixture-of-Experts)架构来解决这一难题。模型包含 64 个轻量级专家,通过门控网络实现动态路由与稀疏激活。在推理过程中,模型能够根据当前场景自动激活最匹配的驾驶专家,在控制计算开销的同时显著提升了模型的容量与适应性。此外,团队采用了多任务联合训练策略,使模型在学习轨迹预测的同时,通过驾驶 VQA 任务理解场景语义。这使得专家网络不仅掌握了驾驶技能,更理解了驾驶决策背后的因果逻辑,显著增强了规划的可解释性与泛化能力。



Figure 3 : MoE 组件的定性分析。不同场景下规划轨迹的 BEV 可视化与专家激活热力图。

与此同时,单纯的模仿学习容易导致模型在长尾场景下缺乏鲁棒性,且难以显式优化安全指标。为此,WAM-Diff 引入了分组序列策略优化(GSPO, Group Sequence Policy Optimization)算法,旨在弥合开环训练与闭环执行之间的鸿沟。GSPO 的核心思想是将优化粒度从「单步 Token」提升至「完整轨迹序列」。系统在仿真环境中采样一组候选轨迹,并依据安全性(碰撞检测)、合规性(车道保持)及舒适性(加减速平滑度)等多维指标对整条轨迹进行评分。通过计算组内相对优势,模型被显式引导向「高安全、高舒适」的区域更新。这种序列级的价值对齐机制,从根本上确保了规划结果不仅「像人」,而且比人类驾驶数据更安全、更规范。


实验结果


为了验证 WAM-Diff 的有效性,我们在权威的 NAVSIM 自动驾驶评测基准上进行了广泛实验。结果显示,该方法在 NAVSIM-v1 和 v2 榜单上均取得了具有竞争力的表现。具体而言,在 NAVSIM-v1 中,WAM-Diff 达到了 91.0 的 PDMS 分数,超越了 DiffusionDrive、ReCogDrive 以及 DriveVLA-W0 等主流基线模型。



Table 1 : 在 NAVSIM-v1 上与最先进方法(SOTA)的对比。

进一步地,在引入了交通规则遵循度与舒适性等更严格指标的 NAVSIM-v2 测试中,模型依然保持了稳健性,取得了 89.7 的 EPDMS 成绩,相较于 DiffusionDrive 提升了 5.2 分。这表明 WAM-Diff 能够有效平衡驾驶的安全性与合规性,在面对贴近真实驾驶的复杂评测体系时仍能生成高质量的规划轨迹。



Table 2 : 在 NAVSIM-v2 上与最先进方法(SOTA)的对比。

此外,我们对掩码扩散的解码策略进行了深入的消融研究。实验对比了随机序、因果序与反因果序三种模式,结果发现反因果序策略取得了最佳的闭环性能(91.0 PDMS)。这一数据有力支持了 “以终为始” 的规划直觉:优先确立远期驾驶意图,再反推近端动作细节,有助于生成在时序上更一致、安全的可执行轨迹。



Table 3 :掩码解码调度策略的消融研究。

定性实验与可视化结果进一步展示了模型在复杂博弈场景下的稳定性,验证了 MoE 架构与在线强化学习(GSPO)组件在提升长尾场景鲁棒性方面的作用。



Figure 4 : 强化学习 GSPO 在不同驾驶场景下的定性消融分析。

总结


WAM-Diff 的出现,标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出了重要一步。它并未简单地堆砌模型参数,而是通过 Masked Diffusion 重构了时序生成的逻辑,利用 MoE 解决了策略单一性的瓶颈,最后通过 RL 守住了安全的底线。对于业界而言,WAM-Diff 证明了在 VLA 时代,「如何生成」与「生成什么」同样重要。这种具备反向推理能力且风格多变的规划器,或许正是通往 L4 级自动驾驶的一块关键拼图。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。