当前位置: 首页 » 资讯 » 新科技 » 正文

理想发布了OTA8.1,VLA 的方向是具身智能

IP属地 中国·北京 酷玩实验室 时间:2025-12-16 12:22:44

01理想VLA最近更新了点啥

就在 12 月初,理想发了一款AI 眼镜 Livis,VLA 也推送了8.1 版本的OTA更新

都有点啥新东西呢?现在我们可以用 AI 眼镜来远程控制汽车空调后备厢,方便了不少。

坐在车上的时候,也可以直接告诉理想同学我想让它往哪走、速度快点还是慢点。

未来,理想同学还能分析并且记住我们的喜好,记住刚刚走过的路。

以后出行的时候就能根据我的偏好设计路线和驾驶风格。

甚至能帮我们买疯狂星期四,不用下车就能拿的那种。



理想同学帮你点疯狂星期四

理想的 VLA 是啥呢?

VLA,也就是视觉(Vision)-语言(Language)-行动(Action)三合一的大模型。

相当于是把理想过去的端到端 + VLM 技术进一步集成起来。

现在的车载大模型既能充分理解,又能高效执行。

用上新版本的 VLA 之后,理想的辅助驾驶有啥变化呢?



一方面,VLA 模型空间感知能力更广,还能基于扩散模型来实现轨迹生成,推理能保证 10 Hz 以上的帧率,效率非常高。

VLA 还有个能力就是跟你对话,在 OTA 8.1 版本推送之后,VLA指令的响应速度能达到200毫秒,这也就意味着可以更快、更精准地响应你的行车指令。

要是我们问一些比较复杂的问题,理想同学的深度思考时间能进一步压缩,可以说越来越接近真人对话的效果了。

有些车主也提到,在面对施工改道、加塞之类场景的时候,VLA 控制下处理更加丝滑,不会猛然加减速,那种机械感很强的点刹和变道不及时的问题也减少了。



提前预判汇入主路

轨迹生成这块,扩散模型的好处就在于,可以直接生成一条很平滑,很“老司机”的路线来执行,轨迹输出不再犹豫。

这也就让车的行驶轨迹更果断、更丝滑,也就是更像个老司机的感觉。

这样,辅助驾驶更像真人司机操控的感觉,不安心的感觉进一步减弱了,舒适度自然也提升了不少。

理想自动驾驶的负责人郎咸朋也说到,理想 VLA 就是在用 GPT 的方式做自动驾驶。长此以往,VLA 会越来越多的生成接近真人的行为。

02VLA的方向是具身智能

理想为啥要做 VLA?为啥要让辅助驾驶更像人?其实得从李想对公司定位的思考说起。



他认为,现在我们所说的具身智能其实有两个大的品类,一种是人形的具身智能机器人,另一种是常见工具智能化之后的具身智能机器人。

这就有点像擎天柱或者大黄蜂的汽车形态,虽然工具属性更强,但同样具备拟人的思考能力,行为方式。



从这个角度来看,汽车机器人它也可以是具身智能机器人。

理想第三季度财报业绩会上,李想深入分析了未来十年新产品要走的路线:

产品停留在“电动车”阶段时,车企们的竞争就会演变成参数大战。更高的结构强度、更大的车内空间、更久的电池续航、更低的首发价格……永不休止的内卷之下,所有额外的研发投入都会变成成本浪费。

当产品演变成“智能终端”,车企们的目光又会全部聚集到屏幕上,像手机研发那样重复进行类似的系统建设。

所有的工作都是如何把手机 App 搬进车机里,卷到最后,就会变成用车机写代码,用车机做深度研究。

这些投入,就彻底偏离了用户需求。

因此,理想未来路线就十分明确了:

不只是要做电动汽车,不只是要做有轮子的智能手机,而是要做具身智能,要做大黄蜂这样的汽车机器人

放眼更广的领域,L4 级自动驾驶的车,是跑在路上的汽车机器人,升级后的智能座舱,是会思考的空间智能体,AI 眼镜,是戴在头上的穿戴机器人,甚至如今的座椅,都可以进一步改造,感受你的体温、体重,不需要任何多余的空间,就能变成一个默默关心你的健康机器人……

那就要赋予汽车眼睛和耳朵一样的感知能力,大脑和神经一样的模型能力。

让汽车具备私人司机一样的专业能力和服务,既可以开车上路、开门接你,又可以帮你停车、充电。在车里给你提供飞机头等舱级别的服务,像助理一样帮你处理手上的事务。

毕竟,谁不想要一台平时提供便捷和关怀,有事的时候真出力的大黄蜂呢?

03上一代的上限 是下一代的起点

从这个思路回头去看,理想 VLA 在做的事就不难理解了。

之前的端到端 + VLM 是有短板的。

一方面,辅助驾驶缺少思考能力,只能简单模仿人类驾驶行为,而人类驾驶场景是无穷无尽的,无法通过模仿学习全部学会。

另一方面,VLM 虽然拥有视觉能力,但是也仅能实现认识常规的红绿灯或者标识,而不能对复杂的指示牌进行思考。

这就有点像车里有个教练在副驾驶教学员操作,我们坐在车上,体验多少有点僵硬了。



上一代技术的上限,是下一代技术的起点。

想要解决就得将二者进一步整合起来,这才有了 VLA 模型。

理想 VLA 的进化,不是给工具戴上“外置大脑”,而是让工具的本体具身智能化。

从最显眼的数据上来看,我们人类开车上路,刹车、转向的最快响应速度差不多 450 毫秒。

原先的辅助驾驶差不多 550 毫秒,在司机眼里就是反应慢。

而线控体系可以让整个链路响应速度缩减到 350 毫秒,低于人类一般水平,在一些场景下甚至能让司机感受到“比人开得好”

从感知上,目前大量采用的 3D BEV、OCC 占用网络、2D ViT,有效的感知距离不如人眼。3D ViT 的工作原理和人眼类似,有效距离可以比以往扩大两到三倍。

我们可以期待一下,将来用上 3D ViT 之后,理想 VLA 大模型可以用更接近人类视觉的方式观察环境,能更好地理解物理世界,也能更高效地使用人类数据做训练。

应用场景也可以不再局限于辅助驾驶,能在车内外给用户提供交互。或许还会诞生更多不同形态的机器人和应用。



如今的理想 VLA 完成了软硬件的全面整合,这也意味着很难有第三方能加入这一赛道,供应同级别的整个 AI 系统。

理想要在 AI 技术上持续保持优势,就必定会坚持走全面自研这条路子,维持研发投入。

对此,理想的决定是,公司架构重新转型成创业公司,进一步聚焦具身智能这个新赛道,重新出发。

在自研芯片与自主泊车、远程呼叫之类各种创新功能落地之后,我们一定会看到一个拥有深度智能的、自主服务用户的,更加“理想”的智能出行生态。

未来十年,我们说不定也会看到许许多多“汽车人”,它们不但是顶级司机,更是家庭管家、生活助理。以汽车的形态,提供更多便捷与陪伴。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。