01理想VLA最近更新了点啥
就在 12 月初,理想发了一款AI 眼镜 Livis,VLA 也推送了8.1 版本的OTA更新。
都有点啥新东西呢?现在我们可以用 AI 眼镜来远程控制汽车空调后备厢,方便了不少。
坐在车上的时候,也可以直接告诉理想同学我想让它往哪走、速度快点还是慢点。
未来,理想同学还能分析并且记住我们的喜好,记住刚刚走过的路。
以后出行的时候就能根据我的偏好设计路线和驾驶风格。
甚至能帮我们买疯狂星期四,不用下车就能拿的那种。

理想同学帮你点疯狂星期四
理想的 VLA 是啥呢?
VLA,也就是视觉(Vision)-语言(Language)-行动(Action)三合一的大模型。
相当于是把理想过去的端到端 + VLM 技术进一步集成起来。
现在的车载大模型既能充分理解,又能高效执行。
用上新版本的 VLA 之后,理想的辅助驾驶有啥变化呢?
![]()
一方面,VLA 模型空间感知能力更广,还能基于扩散模型来实现轨迹生成,推理能保证 10 Hz 以上的帧率,效率非常高。
VLA 还有个能力就是跟你对话,在 OTA 8.1 版本推送之后,VLA指令的响应速度能达到200毫秒,这也就意味着可以更快、更精准地响应你的行车指令。
要是我们问一些比较复杂的问题,理想同学的深度思考时间能进一步压缩,可以说越来越接近真人对话的效果了。
有些车主也提到,在面对施工改道、加塞之类场景的时候,VLA 控制下处理更加丝滑,不会猛然加减速,那种机械感很强的点刹和变道不及时的问题也减少了。

提前预判汇入主路
轨迹生成这块,扩散模型的好处就在于,可以直接生成一条很平滑,很“老司机”的路线来执行,轨迹输出不再犹豫。
这也就让车的行驶轨迹更果断、更丝滑,也就是更像个老司机的感觉。
这样,辅助驾驶更像真人司机操控的感觉,不安心的感觉进一步减弱了,舒适度自然也提升了不少。
理想自动驾驶的负责人郎咸朋也说到,理想 VLA 就是在用 GPT 的方式做自动驾驶。长此以往,VLA 会越来越多的生成接近真人的行为。
02VLA的方向是具身智能
理想为啥要做 VLA?为啥要让辅助驾驶更像人?其实得从李想对公司定位的思考说起。
![]()
他认为,现在我们所说的具身智能其实有两个大的品类,一种是人形的具身智能机器人,另一种是常见工具智能化之后的具身智能机器人。
这就有点像擎天柱或者大黄蜂的汽车形态,虽然工具属性更强,但同样具备拟人的思考能力,行为方式。
![]()
从这个角度来看,汽车机器人它也可以是具身智能机器人。
理想第三季度财报业绩会上,李想深入分析了未来十年新产品要走的路线:
产品停留在“电动车”阶段时,车企们的竞争就会演变成参数大战。更高的结构强度、更大的车内空间、更久的电池续航、更低的首发价格……永不休止的内卷之下,所有额外的研发投入都会变成成本浪费。
当产品演变成“智能终端”,车企们的目光又会全部聚集到屏幕上,像手机研发那样重复进行类似的系统建设。
所有的工作都是如何把手机 App 搬进车机里,卷到最后,就会变成用车机写代码,用车机做深度研究。
这些投入,就彻底偏离了用户需求。
因此,理想未来路线就十分明确了:
不只是要做电动汽车,不只是要做有轮子的智能手机,而是要做具身智能,要做大黄蜂这样的汽车机器人。
放眼更广的领域,L4 级自动驾驶的车,是跑在路上的汽车机器人,升级后的智能座舱,是会思考的空间智能体,AI 眼镜,是戴在头上的穿戴机器人,甚至如今的座椅,都可以进一步改造,感受你的体温、体重,不需要任何多余的空间,就能变成一个默默关心你的健康机器人……
那就要赋予汽车眼睛和耳朵一样的感知能力,大脑和神经一样的模型能力。
让汽车具备私人司机一样的专业能力和服务,既可以开车上路、开门接你,又可以帮你停车、充电。在车里给你提供飞机头等舱级别的服务,像助理一样帮你处理手上的事务。
毕竟,谁不想要一台平时提供便捷和关怀,有事的时候真出力的大黄蜂呢?
03上一代的上限 是下一代的起点
从这个思路回头去看,理想 VLA 在做的事就不难理解了。
之前的端到端 + VLM 是有短板的。
一方面,辅助驾驶缺少思考能力,只能简单模仿人类驾驶行为,而人类驾驶场景是无穷无尽的,无法通过模仿学习全部学会。
另一方面,VLM 虽然拥有视觉能力,但是也仅能实现认识常规的红绿灯或者标识,而不能对复杂的指示牌进行思考。
这就有点像车里有个教练在副驾驶教学员操作,我们坐在车上,体验多少有点僵硬了。
![]()
上一代技术的上限,是下一代技术的起点。
想要解决就得将二者进一步整合起来,这才有了 VLA 模型。
理想 VLA 的进化,不是给工具戴上“外置大脑”,而是让工具的本体具身智能化。
从最显眼的数据上来看,我们人类开车上路,刹车、转向的最快响应速度差不多 450 毫秒。
原先的辅助驾驶差不多 550 毫秒,在司机眼里就是反应慢。
而线控体系可以让整个链路响应速度缩减到 350 毫秒,低于人类一般水平,在一些场景下甚至能让司机感受到“比人开得好”。
从感知上,目前大量采用的 3D BEV、OCC 占用网络、2D ViT,有效的感知距离不如人眼。3D ViT 的工作原理和人眼类似,有效距离可以比以往扩大两到三倍。
我们可以期待一下,将来用上 3D ViT 之后,理想 VLA 大模型可以用更接近人类视觉的方式观察环境,能更好地理解物理世界,也能更高效地使用人类数据做训练。
应用场景也可以不再局限于辅助驾驶,能在车内外给用户提供交互。或许还会诞生更多不同形态的机器人和应用。
![]()
如今的理想 VLA 完成了软硬件的全面整合,这也意味着很难有第三方能加入这一赛道,供应同级别的整个 AI 系统。
理想要在 AI 技术上持续保持优势,就必定会坚持走全面自研这条路子,维持研发投入。
对此,理想的决定是,公司架构重新转型成创业公司,进一步聚焦具身智能这个新赛道,重新出发。
在自研芯片与自主泊车、远程呼叫之类各种创新功能落地之后,我们一定会看到一个拥有深度智能的、自主服务用户的,更加“理想”的智能出行生态。
未来十年,我们说不定也会看到许许多多“汽车人”,它们不但是顶级司机,更是家庭管家、生活助理。以汽车的形态,提供更多便捷与陪伴。





京公网安备 11011402013531号