当前位置: 首页 » 资讯 » 新科技 » 正文

英伟达开源最新VLA,能否破局L4自动驾驶?

IP属地 中国·北京 钛媒体APP 时间:2025-12-02 22:18:46


图片由AI生成

随着大模型深度融入汽车行业,行业竞争正从功能实现转向高阶智驾能力的比拼,而VLA(Vision-Language-Action Model,视觉语言行动模型)被视为下一代技术竞争的关键变量。

当地时间12月1日,英伟达(NVIDIA)宣布正式开源其最新自动驾驶“视觉—语言—行动”(VLA)模型 Alpamayo-R1,该模型能够同时处理车辆摄像头画面、文本指令,并输出行车决策,已在GitHub和Hugging Face平台开源,并同步推出Cosmos Cookbook开发资源包。

这是行业内首个专注自动驾驶领域的开源VLA模型,英伟达此举旨在为L4级自动驾驶落地提供核心技术支撑。

值得注意的是,英伟达Alpamayo-R1相较于传统黑盒式自动驾驶算法,主打“可解释性”,能够给出自身决策的理由,有助于安全验证、法规审查与事故责任判定。而英伟达同时发布“Cosmos Cookbook”等配套工具,能够支持企业和开发者快速训练、评估与部署。

业内认为,英伟达试图通过开放核心技术,降低自动驾驶开发门槛,加速软件栈标准化,打破原来Robotaxi昂贵的“全栈自研”模式,从而转变为可快速组装的“安卓式”生态。

不过也有业内人士向笔者表示,此次英伟达Alpamayo-R1开源与百度Apollo开源类似,对自动驾驶领域的入门选手来说有价值,但对专业公司来说意义不大。

目前,VLA正成为智能驾驶领域公认的下一代核心技术,相关企业都在加码布局。国内理想汽车、小鹏汽车、长城汽车(已搭载于魏牌蓝山)、元戎启行等都已在VLA上实现量产落地。

解决传统“端到端”模型痛点

传统的端到端模型像一个“黑盒”,可能“看得见但看不懂”,在面对违规左转、行人闯入等长尾场景时容易“翻车”。

而相较于传统“端到端”模型,VLA通过引入语言模态作为中间层,将视觉感知转化为可解释的逻辑链,从而具备了处理长尾场景和复杂突发状况的潜力,让机器像人类一样“观察、推理、决策”,而不仅仅是海量数据的简单映射。

自动驾驶领域的VLA(视觉-语言-动作)大模型,代表了将视觉感知、语言理解与决策控制深度融合的技术方向。它能直接输出车辆的驾驶动作,其核心好处是,让机器有了更强的环境理解与推理能力、更高效的一体化决策、更强大的长尾场景应对、更透明的人机交互与信任构建、更自然的车控方式等。

此次英伟达开源的VLA模型Alpamayo-R1,基于全新的 “因果链”(Chain of Causation, CoC) 数据集训练。每一段驾驶数据不仅标注了车辆“做了什么”,更注明了“为什么这样做”。

例如,“减速并左变道,是因为前方有助动车等红灯,且左侧车道空闲”。这意味着模型学会的是基于因果关系的推理,而非对固定模式的死记硬背。

同时,基于模块化VLA架构,英伟达Alpamayo-R1将面向物理人工智能应用预训练的视觉语言模型Cosmos-Reason,与基于扩散模型的轨迹解码器相结合,可实时生成动态可行的规划方案;以及多阶段训练策略,先通过监督微调激发推理能力,再利用强化学习(RL)优化推理质量——借助大型推理模型的反馈,并确保推理与动作的一致性。

英伟达公布的数据显示:Alpamayo-R1在复杂场景下的轨迹规划性能提升了12%,近距离碰撞率减少25%,推理质量提升 45%,推理-动作一致性增强37%。模型参数从0.5B扩展至7B的过程中,性能持续改善。车载道路测试验证了其实时性表现(延迟99毫秒)及城市场景部署的可行性。

也因此,英伟达Alpamayo-R1有望给L4自动驾驶带来能力的跃迁,Robotaxi有望安全地融入真实、混乱的公开道路。

成为自动驾驶赛道的“安卓”

从这次开源Alpamayo-R1,可以再次看出英伟达在自动驾驶领域的野心,已经不满足于只是“硬件供应商”,而是要做成自动驾驶赛道的“安卓”。

其实,早在今年10月份,英伟达就对外低调发布了Alpamayo-R1大模型。而在华盛顿GTC大会上,英伟达发布了自动驾驶平台——NVIDIA DRIVE AGX Hyperion 10。

Hyperion 10被认为是英伟达自动驾驶的“身体”,而Alpamayo-R1则是自动驾驶的大脑。

值得注意的是,Hyperion 10实现了“从仿真到实车”的闭环:在云端,DGX超级计算机使用DRIVE Sim生成高保真仿真数据,用于训练DRIVE AV模型;在车端,Hyperion 10的传感器数据与Thor芯片无缝对接。

因此,如果一家车企想快速推出具备L4级能力的车型,不需要再分别组建庞大的硬件集成、软件算法和数据训练团队,采用英伟达的整套方案可以快速实现上车。

同时,英伟达也在构建一个“安卓式”的Robotaxi生态,并对外公布了明确的落地时间表:2027年起部署10万辆Robotaxi。

目前,英伟达已宣布与Uber、奔驰、Stellantis、Lucid等公司合作,共同打造“全球最大L4级自动驾驶车队”。截至2025年10月,英伟达的云端平台已积累超过500万小时的真实道路数据。

英伟达的入场,正在将Robotaxi的竞争从单一的技术比拼,引向生态模式的对决。

封闭模式除了导致重复的研发投入,更深刻的弊端是形成了“数据孤岛”。Waymo的美国道路经验难以惠及中国车企,每个玩家都在独立而缓慢地跨越技术曲线。

英伟达的开放生态,有机会在确保数据隐私和安全的前提下,推动生态内玩家共享经过匿名化处理的特征数据。例如,A车企在特定路口遇到的极端场景数据,可以转化为脱敏后的训练特征,帮助B车企的模型更快地识别类似风险。

如果英伟达能够成为自动驾驶领域的“安卓”,将有望带动整个生态的技术迭代速度从线性转变为指数级提升。这不仅是技术共享,更是成本共担。共同应对长尾场景这一行业最大难题的边际成本,将随着生态的扩大而持续降低。

元戎启行CEO周光预测,VLA带来的可能是 “断层式的领先”,并成为下一代竞争的关键变量。

DeepWay深向CTO田山告诉笔者,VLA是目前自动驾驶行业非常火的一项技术,研究者众多,能极好地提高自动驾驶模型的泛化能力及推理能力,英伟达开源Alpamayo-R1,使得这项很火且很有前途的自动驾驶技术有更多的人可以参与研究并做出贡献,能积极推进VLA技术的发展和落地,而这项技术也能应用在具身智能等物理AI的场景中。

隐形门槛仍在前方

不过,Alpamayo-R1目前要满足车规级时延,还需要在RTX A6000 ProBlackwell级别的卡上运行——这张卡的INT8算力高达4000T,是Thor的6倍左右。

英伟达的商业模式决定了,其开源是为了更好地销售其硬件和全栈解决方案。Alpamayo-R1模型与英伟达的芯片(如Thor)及开发平台(如Drive)深度绑定,能实现更高的算力利用率。

这意味着,选择英伟达生态在获得便利的同时,也意味着在核心算力上与其深度绑定。

另外,DeepWay深向CTO田山向笔者指出,VLA是不是最佳的自动驾驶技术,目前还在实践过程中,而Alpamayo-R1模型工具链基于英伟达的平台,对很多开发者来说也是一种限制,所以也有很多其他的技术和其他的计算平台在推进自动驾驶技术发展。

在田山看来,多数公司应该更聚焦技术落地,也就是技术的工程化实现,解决实际场景的问题,早日实现智驾技术的商业化闭环更有益于行业的长久健康发展。

此外,L4自动驾驶的落地或者说Robotaxi的规模化商业化,还与政策与法规息息相关。同时,如何在合规框架内运营、如何通过安全评估、如何在数据利用与隐私保护间取得平衡,这些能力的重要性,并不亚于技术本身。

英伟达的黄仁勋一直将Robotaxi视为“机器人技术的首个商业化应用”,英伟达一直要做的不是一辆无人出租车,而是让所有玩家都能做出无人出租车的技术底座。如今,他正试图通过开源VLA,为这个应用打造一条可以快速复制的生产线。

但最终能否通过开源降低准入门槛,加速推动L4自动驾驶到来,让技术的潮水涌向更广阔的商业海岸,英伟达Alpamayo-R1模型的开源,只是游戏的开始,后面还有门槛要迈,还需要市场来验证。(文|敏行,作者|张敏,编辑|李程程)

声明:包含AI生成内容

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新