当前位置: 首页 » 资讯 » 新科技 » 正文

汽车会思考了吗?理想发布MindVLA-o1

IP属地 中国·北京 经济观察报 时间:2026-03-17 21:55:11


经观感知

自动驾驶技术正在进入新的阶段。

3月17日,在美国硅谷举行的NVIDIA GTC 2026大会上,理想汽车发布下一代自动驾驶基础模型 MindVLA-o1。

理想汽车基座模型负责人詹锟在演讲中表示,这一模型通过统一视觉、语言和行动三类能力,使自动驾驶系统不仅能够理解环境并生成驾驶行为,还能够在模型内部推演未来场景,从而形成类似“思考—决策—行动”的能力。

在理想汽车的描述中,这一模型不再只是传统意义上的自动驾驶算法,而是面向物理世界的一种基础智能模型架构。按照其规划,同一套模型未来不仅可以用于车辆控制,也可以扩展至机器人等物理系统。

近年来,随着大模型技术在自然语言和视觉领域的突破,自动驾驶行业也在尝试将视觉理解、语言推理与行动决策统一到同一模型中。这类模型通常被称为 VLA(Vision-Language-Action)模型。其核心目标是让机器同时具备环境理解、逻辑推理以及行为生成能力,从而提升自动驾驶系统在复杂场景中的泛化能力。

在不少业内人士看来,VLA模型正在成为自动驾驶技术新的研究方向。相比传统模块化系统,统一模型架构有望减少系统之间的信息损失,并通过大规模数据训练提升系统在未知场景中的适应能力。

理想汽车此次发布MindVLA-o1,被视为车企在这一技术路径上的一次探索。

智驾路线纷争

自动驾驶技术过去十余年的发展,大致经历了从规则系统到深度学习的转变。

在最早阶段,自动驾驶系统主要依赖工程规则。系统通常由感知、定位、预测、规划和控制等多个模块组成,每个模块独立设计,并通过大量规则逻辑进行连接。这种架构在高速公路等简单场景中运行稳定,但在复杂城市交通环境中容易遇到难以覆盖的极端情况。

随着深度学习技术的发展,自动驾驶企业开始尝试端到端模型。该方法通过神经网络直接从传感器数据生成驾驶轨迹,从而减少人工规则的依赖。特斯拉FSD、小鹏汽车以及多家自动驾驶公司均在探索这一技术路线。

不过,端到端模型也存在新的挑战。虽然模型可以通过学习生成驾驶行为,但在复杂交通环境中仍然缺乏对场景的深层理解能力。

在这一背景下,融合多模态能力的VLA模型逐渐受到关注。VLA模型通过结合视觉感知、语言模型推理以及行动生成,使自动驾驶系统不仅能够识别环境,还能够通过推理生成决策。

MindVLA-o1正是在这一思路下设计。

自动驾驶系统的核心能力之一,是对真实世界环境的理解。车辆传感器获取的数据通常以二维图像形式呈现,但驾驶决策需要基于三维空间。例如车辆之间的距离、行人的运动轨迹以及道路结构等信息,都需要通过三维建模进行理解。

MindVLA-o1在感知层采用了以视觉为核心的三维编码架构,并结合激光雷达点云信息作为几何提示,使模型能够同时学习语义信息与空间结构。



此外,系统还引入三维高斯泼溅(3D Gaussian Splatting)等技术,对场景进行三维重建,并通过预测下一帧图像作为自监督信号训练模型,使其在学习语义信息的同时理解深度与运动关系。

这种方法的目标,是让自动驾驶模型不仅能够识别物体,还能够理解物体在空间中的位置以及运动关系。

“大模型时代”

在自动驾驶系统中,理解当前环境只是第一步,更重要的是预测未来场景变化。例如车辆接近路口时,需要判断行人是否准备过马路、前车是否会突然减速、周围车辆是否可能并线等。

传统自动驾驶系统通常依赖单独的预测模块进行场景预测。而MindVLA-o1通过引入世界模型,使系统能够在隐空间中模拟未来场景。

在训练过程中,模型首先通过大量视频数据学习未来场景变化的规律,然后在隐空间中持续推演可能出现的情境,并将这些推理结果与驾驶行为进行联合训练。

理想汽车将这一能力称为“多模态思考”。在这一机制下,自动驾驶系统可以在生成驾驶决策之前,对未来场景进行预测和推演。

在驾驶决策阶段,MindVLA-o1采用混合专家模型架构,并设置专门的动作专家模块生成驾驶轨迹。系统会综合环境信息、导航目标以及驾驶指令,直接生成车辆行驶轨迹。

为了满足实时性要求,系统通过并行解码方式一次性生成全部轨迹点,同时利用扩散模型进行多轮优化,使轨迹更加平滑并符合车辆动力学约束。

这种方式与传统自动驾驶系统存在明显差异。过去系统通常通过规则和优化算法计算驾驶轨迹,而新的模型则通过生成式方法直接生成驾驶行为。

MindVLA-o1还引入强化学习框架,并通过世界模拟器进行大规模训练。系统可以在虚拟环境中生成大量驾驶场景,使模型通过不断试错优化驾驶策略。

为了支持这种训练方式,理想汽车开发了新的三维渲染引擎和分布式训练框架,以提升模拟环境生成效率并降低训练成本。

近年来,自动驾驶竞争正逐渐从硬件能力转向人工智能能力。一方面,自动驾驶系统需要大量数据和算力支持;另一方面,大模型技术正在改变自动驾驶系统的整体架构。

包括特斯拉、Wayve以及部分自动驾驶公司都在探索大模型路线。部分企业还通过构建超级计算平台训练自动驾驶模型。

在这一背景下,车企的角色也在发生变化。从传统制造企业向技术公司转型,或成为不少车企的重要战略方向。

理想汽车表示,其AI体系由数据引擎MindData、VLA模型MindVLA-o1、世界模型MindSim以及强化学习基础设施等模块组成。这些模块共同构成一个闭环系统,使AI能够在真实世界与模拟环境中持续学习和优化。

按照理想汽车的设想,这套系统未来不仅可以服务于汽车,也可以扩展至机器人等物理系统。

不过,大模型路线仍面临不少挑战。首先,大模型训练需要巨量数据与算力,成本极高;其次,自动驾驶系统的安全性仍需要长期验证;此外,监管政策与商业化进程也会影响技术落地速度。

自动驾驶技术的发展历程表明,每一次技术突破都需要经历较长的验证周期。

MindVLA-o1的发布意味着自动驾驶行业正在尝试新的技术方向,但这一技术路径是否会成为未来主流,还需要时间检验。

可以确定的是,随着人工智能技术的发展,自动驾驶已经不再只是车辆控制系统的问题,而正在逐渐演变为一个复杂的人工智能问题。在这一变化中,车企与科技公司的边界也在逐渐模糊。

免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。