当前位置：首页 » 资讯 » 新科技 » 正文

汽车会思考了吗？理想发布MindVLA-o1

IP属地中国·北京 经济观察报 时间：2026-03-17 21:55:11

经观感知
自动驾驶技术正在进入新的阶段。
3月17日，在美国硅谷举行的NVIDIA GTC 2026大会上，理想汽车发布下一代自动驾驶基础模型 MindVLA-o1。
理想汽车基座模型负责人詹锟在演讲中表示，这一模型通过统一视觉、语言和行动三类能力，使自动驾驶系统不仅能够理解环境并生成驾驶行为，还能够在模型内部推演未来场景，从而形成类似“思考—决策—行动”的能力。
在理想汽车的描述中，这一模型不再只是传统意义上的自动驾驶算法，而是面向物理世界的一种基础智能模型架构。按照其规划，同一套模型未来不仅可以用于车辆控制，也可以扩展至机器人等物理系统。
近年来，随着大模型技术在自然语言和视觉领域的突破，自动驾驶行业也在尝试将视觉理解、语言推理与行动决策统一到同一模型中。这类模型通常被称为 VLA（Vision-Language-Action）模型。其核心目标是让机器同时具备环境理解、逻辑推理以及行为生成能力，从而提升自动驾驶系统在复杂场景中的泛化能力。
在不少业内人士看来，VLA模型正在成为自动驾驶技术新的研究方向。相比传统模块化系统，统一模型架构有望减少系统之间的信息损失，并通过大规模数据训练提升系统在未知场景中的适应能力。
理想汽车此次发布MindVLA-o1，被视为车企在这一技术路径上的一次探索。
智驾路线纷争
自动驾驶技术过去十余年的发展，大致经历了从规则系统到深度学习的转变。
在最早阶段，自动驾驶系统主要依赖工程规则。系统通常由感知、定位、预测、规划和控制等多个模块组成，每个模块独立设计，并通过大量规则逻辑进行连接。这种架构在高速公路等简单场景中运行稳定，但在复杂城市交通环境中容易遇到难以覆盖的极端情况。
随着深度学习技术的发展，自动驾驶企业开始尝试端到端模型。该方法通过神经网络直接从传感器数据生成驾驶轨迹，从而减少人工规则的依赖。特斯拉FSD、小鹏汽车以及多家自动驾驶公司均在探索这一技术路线。
不过，端到端模型也存在新的挑战。虽然模型可以通过学习生成驾驶行为，但在复杂交通环境中仍然缺乏对场景的深层理解能力。
在这一背景下，融合多模态能力的VLA模型逐渐受到关注。VLA模型通过结合视觉感知、语言模型推理以及行动生成，使自动驾驶系统不仅能够识别环境，还能够通过推理生成决策。
MindVLA-o1正是在这一思路下设计。
自动驾驶系统的核心能力之一，是对真实世界环境的理解。车辆传感器获取的数据通常以二维图像形式呈现，但驾驶决策需要基于三维空间。例如车辆之间的距离、行人的运动轨迹以及道路结构等信息，都需要通过三维建模进行理解。
MindVLA-o1在感知层采用了以视觉为核心的三维编码架构，并结合激光雷达点云信息作为几何提示，使模型能够同时学习语义信息与空间结构。

此外，系统还引入三维高斯泼溅（3D Gaussian Splatting）等技术，对场景进行三维重建，并通过预测下一帧图像作为自监督信号训练模型，使其在学习语义信息的同时理解深度与运动关系。
这种方法的目标，是让自动驾驶模型不仅能够识别物体，还能够理解物体在空间中的位置以及运动关系。
“大模型时代”
在自动驾驶系统中，理解当前环境只是第一步，更重要的是预测未来场景变化。例如车辆接近路口时，需要判断行人是否准备过马路、前车是否会突然减速、周围车辆是否可能并线等。
传统自动驾驶系统通常依赖单独的预测模块进行场景预测。而MindVLA-o1通过引入世界模型，使系统能够在隐空间中模拟未来场景。
在训练过程中，模型首先通过大量视频数据学习未来场景变化的规律，然后在隐空间中持续推演可能出现的情境，并将这些推理结果与驾驶行为进行联合训练。
理想汽车将这一能力称为“多模态思考”。在这一机制下，自动驾驶系统可以在生成驾驶决策之前，对未来场景进行预测和推演。
在驾驶决策阶段，MindVLA-o1采用混合专家模型架构，并设置专门的动作专家模块生成驾驶轨迹。系统会综合环境信息、导航目标以及驾驶指令，直接生成车辆行驶轨迹。
为了满足实时性要求，系统通过并行解码方式一次性生成全部轨迹点，同时利用扩散模型进行多轮优化，使轨迹更加平滑并符合车辆动力学约束。
这种方式与传统自动驾驶系统存在明显差异。过去系统通常通过规则和优化算法计算驾驶轨迹，而新的模型则通过生成式方法直接生成驾驶行为。
MindVLA-o1还引入强化学习框架，并通过世界模拟器进行大规模训练。系统可以在虚拟环境中生成大量驾驶场景，使模型通过不断试错优化驾驶策略。
为了支持这种训练方式，理想汽车开发了新的三维渲染引擎和分布式训练框架，以提升模拟环境生成效率并降低训练成本。
近年来，自动驾驶竞争正逐渐从硬件能力转向人工智能能力。一方面，自动驾驶系统需要大量数据和算力支持；另一方面，大模型技术正在改变自动驾驶系统的整体架构。
包括特斯拉、Wayve以及部分自动驾驶公司都在探索大模型路线。部分企业还通过构建超级计算平台训练自动驾驶模型。
在这一背景下，车企的角色也在发生变化。从传统制造企业向技术公司转型，或成为不少车企的重要战略方向。
理想汽车表示，其AI体系由数据引擎MindData、VLA模型MindVLA-o1、世界模型MindSim以及强化学习基础设施等模块组成。这些模块共同构成一个闭环系统，使AI能够在真实世界与模拟环境中持续学习和优化。
按照理想汽车的设想，这套系统未来不仅可以服务于汽车，也可以扩展至机器人等物理系统。
不过，大模型路线仍面临不少挑战。首先，大模型训练需要巨量数据与算力，成本极高；其次，自动驾驶系统的安全性仍需要长期验证；此外，监管政策与商业化进程也会影响技术落地速度。
自动驾驶技术的发展历程表明，每一次技术突破都需要经历较长的验证周期。
MindVLA-o1的发布意味着自动驾驶行业正在尝试新的技术方向，但这一技术路径是否会成为未来主流，还需要时间检验。
可以确定的是，随着人工智能技术的发展，自动驾驶已经不再只是车辆控制系统的问题，而正在逐渐演变为一个复杂的人工智能问题。在这一变化中，车企与科技公司的边界也在逐渐模糊。
免责声明：本文观点仅代表作者本人，供参考、交流，不构成任何建议。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

“木头姐”发声：AI已开始重塑生产力，未来十年将创造12万亿美元收入

雷蛇与Luma AI合作，为壁纸软件Axon雷幻添加AI图像创作功能

马斯克：若告赢OpenAI，收益将全部捐给慈善机构

AirPods Max 2 的发布暗示了 iOS 26.4 更新的大致推送日

广告标识行业太卷出路在哪？首届AI应用千人大会在郑举行

高通宣布200亿美元股票回购计划，盘前直线拉升涨近3%

全站最新

“木头姐”发声：AI已开始重塑生产力，未来十年将创造12万亿美元收入

雷蛇与Luma AI合作，为壁纸软件Axon雷幻添加AI图像创作功能

马斯克：若告赢OpenAI，收益将全部捐给慈善机构

AirPods Max 2 的发布暗示了 iOS 26.4 更新的大致推送日

热门推荐

“木头姐”发声：AI已开始重塑生产力，未来十年将创造12万亿美元收入

雷蛇与Luma AI合作，为壁纸软件Axon雷幻添加AI图像创作功能

马斯克：若告赢OpenAI，收益将全部捐给慈善机构

当AI学会写作，人类开始互相怀疑

这些名优企业都来了！2026春季糖酒会展商剧透

蔚来与途虎养车达成战略合作

AirPods Max 2 的发布暗示了 iOS 26.4 更新的大致推送日

存储芯片短缺或持续至2030年！三星工会酝酿史上最大规模罢工〡明日线索

“木头姐”发声：AI已开始重塑生产力，未来十年将创造12万亿美元收入

广告标识行业太卷出路在哪？首届AI应用千人大会在郑举行

高通宣布200亿美元股票回购计划，盘前直线拉升涨近3%

宇树科技王兴兴：今年机器人会跑得比博尔特快

悟空来了！钉钉打造企业级龙虾，我现场体验被震撼到了

小牛电动：发布首款AI智能两轮车车机系统搭载Qwen3.5大模型

宇树科技王兴兴：今年机器人会跑得比博尔特快