机器之心报道
作者:泽南
“司机大模型”VLA正式发布。
本周二,理想汽车正式推出了全新纯电 SUV 理想 i8,其搭载的全新一代 VLA 辅助驾驶系统立即引起了广泛关注。
作为全球首家展示 VLA 辅助驾驶范式的汽车制造商,理想汽车采用了基于视觉-语言-行为大模型、新一代英伟达 Thor-U 芯片和禾赛 ATL 激光雷达的 VLA 司机大模型,显著提升了新车型的辅助驾驶能力。
在理想 i8 发布前,工程师们向我们介绍了他们基于最新 VLA 模型的辅助驾驶技术及其研发过程。
在全球范围内,辅助驾驶系统刚刚经历了从无图智驾到端到端范式的革新。然而,经过大规模实践后,理想认为,为了实现 L3 级别自动驾驶,系统架构仍需进一步演进。
自去年端到端辅助驾驶系统上线以来,理想汽车的技术 MPI(接管里程)水平在过去 12 个月内显著提升。从去年 7 月开始的小规模内测时,端到端辅助驾驶的 MPI 成绩为十几公里,到今年 2 月推出包含 1000 万个片段的版本后,MPI 已提升至 100 公里,7 个月内实现了 10 倍的增长。
然而,在达到 1000 万 Clips 的成绩后,单纯增加数据量所带来的提升变得有限,有价值的训练数据也逐渐减少。为此,理想尝试了「超级对齐」技术,通过后处理和特定的规则机制来规范模型的输出效果,使其更符合人类需求。与此同时,理想提高了筛选数据的标准,从今年 3 月到 5 月,模型性能提升了约两倍。
理想发现,仅通过数据驱动的端到端方法在提升过程中会遇到边际效应。无论数据如何配比,都难以克服以下挑战:出现违反常理的行为(缺乏对场景的理解);驾驶决策缺乏深度思考;行驶过程中未能充分保障人类的安全感(未能根据场景进行预防性驾驶)。
事实证明,「模仿学习」的方法缺乏深度的逻辑思维能力。
去年,理想工程师开始尝试在需要深度决策时为 AI 模型增加更多的推理能力。然而,当时基于 VLM 的推理速度较慢(仅为 2-3Hz),并且无法在执行任务过程中理解并响应人类的新指令。
在基于 VLA(Vision Language Action)架构的辅助驾驶方案中,最大的改进在于利用大模型的语言智能提供决策能力。具体而言,空间智能的输入将转化为语言智能的理解和表达编码,最终形成动作指令。
正是由于这种架构的变化,类似于当前 AI 领域中的深度思考大模型,辅助驾驶系统具备了强大的交互能力。VLA 在使用上的显著变化在于:如果人类在过程中发出指令(prompt),可以随时调整 AI 的决策。VLA 天生具备理解人类指令的能力,并能按照指令完成任务。
例如,您可以直接对 i8 发出指令:“理想同学前进 5 米”,它将精确行驶 5 米的距离。
VLA 在运行时会将整个环境以语言形式进行总结,进而形成类似人类的思考过程。在辅助驾驶功能启用期间,系统会将传感器传输的视频信息转化为文本,并进行推理,目前的处理速度可达 10Hz。
除了对现实世界的深刻理解,VLA 辅助驾驶还显著提升了驾驶的平顺性。在过去,端到端辅助驾驶系统中,AI 通过生成轨迹点并连接这些点来实现近似平滑的路径;而现在,模型通过 Diffusion 技术生成更加平滑的轨迹。从实际驾驶体验来看,现在的驾驶动作更加流畅,调整次数减少,整体体验更为出色。
此外,驾驶风格也得到了改进:上一代辅助驾驶系统主要参考了「老司机」的数据,而新一代则更多地模仿了「专车司机」的驾驶方式。更加稳健的驾驶风格将受到更多用户的欢迎。
综上所述,VLA 范式的特点包括:
思维推理能力:通过 CoT(Chain of Thought,思维链)的推理,系统能够全面理解和感知环境,并据此生成驾驶决策;
沟通能力:能够与驾驶者进行自然语言的无缝交流,支持如加速、减速、左转、右转、超车等基本操作;
记忆能力:当车辆行驶在特定道路上时,用户可以指示「以 ×× 公里速度行驶」,下次再次行驶在同一道路上时,车辆能够记住并应用上一次的设置;
自主学习能力:VLA 通过仿真环境进行自我迭代和提升,过程中使用了大量生成数据。
简而言之,即具备“思考、沟通、记忆和自我提升”的能力。在全面架构升级后,第一版 VLA 的体验已显著优于最新版本的端到端辅助驾驶系统。
基于 VLA,理想旨在为更广泛的用户群体提供一个“私人司机”服务。VLA 司机大模型将为用户带来一系列驾驶体验的升级。例如,VLA 辅助驾驶系统已经掌握了防御性驾驶技术,不仅能够在遇到丁字路口时及时刹车,还能通过推理分析道路上的盲区,从而提前采取措施预防潜在的碰撞风险。
在狭窄的道路上,车辆能够自主完成多次倒车和调头操作。
理想汽车的辅助驾驶研发始于 2021 年,从最初的 BEV 方案,到无图辅助驾驶,再到 2024 年开始实施的端到端架构,技术架构已经经历了多轮迭代。
截至目前,理想已累计用户智驾总里程达 43 亿公里,用户规模总计 134 万辆。理想为智驾算法准备的云端算力已达到 13EFLOPS。
在数据方面,理想自 2020 年起开始收集数据并进行迭代。截至今年 7 月,已累计了 12 亿公里的有效数据。理想积累了大量不同环境下的数据,并进行了细致的分类,涵盖不同天气、时间段、道路类型、车道路口类型、交通状况、目标车辆场景、自车行为、合规行为以及接管类型等多个维度。
“尽管每个人都能达到 1000 万 clips,这相当于 1000 到 2000 万公里的数据,但关键在于能否构建出有价值的数据。我们通过数据合成的方法,针对长尾场景进行优化,使场景分布更加均衡,从而实现性能的提升,”理想汽车智能驾驶研发副总裁郎咸朋博士表示。“在难以获取数据的长尾场景中,我们更多地依赖生成数据进行训练。”
自今年2月起,理想对端到端模型的训练数据进行了调整和优化。通过世界模型负责场景的重建与生成,利用真实数据进行扩展,从而提升VLA应对复杂场景的能力。
例如「高速 ETC 收费站」,同一地点可以生成不同天气和不同时段的场景。一些危险场景的 corner case 数据,也可以通过世界模型生成。
在算法方面,理想的核心优势在于高效的算法和强化学习的应用。李想此前曾提到,VLA 大模型的生成需要五个步骤。理想通过构建 MindGPT 基座模型,并经过后训练、基于人类反馈的强化学习(RLHF)、进一步的强化学习,最终构建了 VLA 司机智能体,实现了辅助驾驶系统。
在后训练阶段,VLA 模型在世界模型中进行仿真测试。世界模型生成「真题」(完全复现)和「模拟题」(新场景)。所有条件均完全可控,测试周期显著缩短,成本降低,实现天级发布。理想公司甚至指出,「实际上,版本迭代的速度仅取决于显卡的数量。」
尽管显卡价格不菲,但与耗资巨大的实车测试相比,采用仿真测试不仅大幅降低了成本,还持续提升了辅助驾驶的效果。因此,理想的辅助驾驶测试里程从 2023 年的实车测试 157 万公里(每公里成本 18.4 元)和 2024 年的实车测试 122 万公里、仿真测试 514 万公里(每公里成本 4.84 元),发展到今年截至 6 月 30 日的实车测试 2 万公里和仿真测试 4009 万公里,目前每公里成本仅为 0.53 元。
在工程能力方面,理想汽车专注于模型量化和部署效率的提升。在 Thor-U 上部署的 4B 模型已经进行了 FP8 和 INT8 量化,即使在“旧版”硬件车辆的 Orin-X 上也能顺利部署。预计未来通过 FP4 精度的推理,Thor-U 搭载的芯片车辆算力将实现翻倍,为 VLA 模型提供更大的算力空间。
最后还有一件事:在北京理想总部,目前已有运行中的 MEGA Home 接驳车,能够实现全区域的巡游,包括地下停车场。
理想基于世界模型,为其总部构建了一个 1×1 公里的完全仿真环境。作为庞大的 3D 资产集合,每个交通参与者都经过 3D 重建,并作为智能体拥有自己的行动逻辑,完全模拟真实的物理世界。理想表示,在此环境中运行和训练车辆的速度将远超真实世界的训练速度。
上一代技术的上限,将成为下一代技术的起点。未来,VLA 技术的迭代速度将进一步加快。理想公司表示,一年后,当人们看到一个 MPI 在 1000 公里范围内实现的辅助驾驶系统时,将真正相信智能驾驶的时代即将来临。