作者 | 柴旭晨
编辑 | 王小娟
一周前,理想重金“改造”的首款纯电i8登台。与它同时上阵交付的,还有董事长李想的AI愿景,其中核心之一就是VLA“司机大模型”。
两年前,在决心重押智驾后,理想尝到了踩中风口的甜头,销量持续攀升且高配的Max、Ultra版本更为畅销。理想希望更进一步,引入新技术架构,来夯实自己在智驾领域的优势,旋即祭出了VLA(视觉、语言、行动)大模型,理想将其命名为“VLA司机大模型”。
它祭出了VLA(视觉、语言、行动)大模型,理想将其命名为“司机大模型”。
以前,不小心错过路口要手忙脚乱地寻找掉头点,自己打方向盘、看路况,慌乱之下容易出错。现在,只要说一句:“理想同学,前面掉头”,VLA立刻听懂指令自动执行。
“我认为VLA能够解决到全自动驾驶”,李想直言,“今天辅助驾驶的这些规则算法、端到端跟人类差距还是太大了。而司机大模型能力是最接近人类,甚至有机会超过人类能力的智驾方案”。
为何VLA能拥有如此强大的潜质?在近期的一场访谈中,理想自动驾驶研发高级副总裁郎咸朋向华尔街见闻详细解读了VLA背后的原理。
回溯来看,自动驾驶技术这几年飞快发展,从原来的人工时代到现在AI时代,分水岭是从无图到端到端。人工时代的核心是用规则算法来控制车辆运作、运行。因此,决定人工时代性能的核心就是工程师。
但在郎咸朋看来,人都是有不足的,很多场景需要“堆人”去研发才能解决。且很多场景是按下葫芦起来瓢,“把这个规则弄完了,那个规则又不行了”。基于此,行业就进入了端到端的AI时代。
郎咸朋指出,端到端+VLM的核心是用人类驾驶的数据模仿学习。“其实我们也不知道这个车是怎么开起来的,只知道我训练的模型可以开车。”但端到端不具备深度的逻辑思考能力,“就像猴子开车一样,顶多算是一个应激反应”。
理想在去年就意识到了这个问题,并开创了端到端+VLM的先河,把视觉语言大模型加了进去。在需要深度决策的时候,VLM模型可以提供更好的决策。
但这依旧不是最优解,“VLM的推理速度慢了一点,关键是VLM有很多好决策无法被端到端模型吸收,因为端到端没有思考能力也不理解VLM在说什么。”
VLA由此而来。据了解,VLA的所有模块经过全新设计,空间编码器通过语言模型,并结合逻辑推理,给出合理的驾驶决策,并通过Diffusion预测其他车辆和行人的轨迹,进一步优化出最佳的驾驶轨迹,选出最像“老司机”的那一条,提升了车辆对复杂环境的理解和博弈能力。
“能思考、能沟通、能记忆、能自我提升”,这是郎咸朋对VLA能力的总结,基于这几个能力,产品上带给用户的实际体验就是安全、舒适、高超的驾驶技巧和自然的交互能力。
VLA的强大潜力,已引来众多友商和供应商的迅速跟进,纷纷宣布将涌入这条新赛道。如今,理想选择重押“智驾老司机”。这场由VLA引领的技术变革,能否帮助它在激烈的市场竞争中稳固王座,并最终拿到通往完全自动驾驶的终极门票?市场正在拭目以待。
以下是与理想自动驾驶研发高级副总裁郎咸朋、理想自动驾驶高级算法专家詹锟、湛逸飞的对话实录:
问:VLA司机具备推理能力,并且表现更像人了,但是需要几秒钟的推理时间,请问在突发场景下,VLA司机是怎么进行快思考的?
郎咸朋:实际上现在VLA的推理帧率在10Hz左右,相比之前的VLM(3Hz)提升了三倍多。
詹锟:自研基座模型对部署VLA有很大作用,VLA是4B模型,比以前更大但推理速度更快。市面上并不是业界任何一个开源模型都能达到这个效率,我们是MoE的0.4×8的架构,目前没有任何一个架构是这样的,这是我们与基座团队共同研发的。
VLA的推理帧率在10Hz左右,每一帧都会经过语言模型,这其中会有比较快的思考,也有会有比较长的思考,我们做了很多的优化,把思考过程尽可能地能够在车端推理出来。
问:如何判断自动驾驶落地的时间表,如何进行商业变现?
郎咸朋:技术层面,VLA模型是可以走向更高级别的自动驾驶,但它现在处于起步阶段。目前,起步阶段VLA模型约等于端到端的上限,它还有很长一段路要走。但我认为这个过程不会特别慢,因为端到端从10MPI到现在100MPI只用了一年左右的时间,可能明年就迭代到1000MPI了。
但前提是要有完备的基础能力,如算法、算力和数据等,并且要有工程能力的支撑才能够实现。尤其VLA的训练和端到端是不一样的,它需要更多的和成熟和仿真环境来进行强化学习的训练,和之前只是单纯依靠实车的数据模仿学习训练是完全不同的。
商业变现的影响因素非常多,最核心的是国家的法律政策。理想也在积极参与国家相关政策法规的讨论小组,从技术上来看L4级别的自动驾驶落地是非常快的,但从商业角度上看,还有很多问题需要考虑,比如保险,事故之后的赔偿等。
问:VLA模型的难度在哪里,如果一个企业想要落地VLA模型会面临哪些挑战?
郎咸朋:如果车企想做VLA模型,是不是可以跳过前面的规则算法和端到端阶段,我认为不行。虽然VLA的数据、算法等可能跟之前不太一样,但是这些仍然是要建立在之前基础上的,如果没有完整的通过实车采集的数据闭环,是没有数据能够去训练世界模型的。
理想之所以能够落地VLA模型,是因为我们有12亿数据,只有在充分了解这些数据的基础上,才能够更好的生成数据。如果没有这些数据基础,首先不能训练世界模型,其次也不清楚要生成什么样的数据。同时,基础训练算力和推理算力的支撑需要大量资金和技术能力,如果没有之前的积累是不能完成的。
问:未来理想把自动驾驶能力推升的过程中,对于算力储备和卡的规划是怎样的?
郎咸朋:算力增长过程与技术方案相关。在规则算法时代,训练的卡只是用于训练BEV模型和感知模型,但在端到端时代,我们的训练卡从不到1EFLOPS增长到去年的10EFLOPS,增长了10倍左右。我们认为训练算力是一方面,同时要增加推理算力。
问:智能驾驶存在一个“不可能三角”,效率、舒适和安全三个目标之间是互相制约的,理想如何思考的?
郎咸朋:理想车主的人驾数据是60万公里左右出一次事故,而在使用辅助驾驶功能的情况下是350到400万公里发生一次。我们的目标是比人驾安全10倍,600万公里才出一次事故,但这必须等到VLA模型提升之后才能做到。
我们也做过分析,可能一些安全风险问题会导致接管,但舒适度不好也会导致接管,比如急刹、重刹等,如果驾驶舒适度不好,用户依然不想用辅助驾驶,我们重点提升了i8的行车舒适度。
效率是排在安全和舒适之后的,比如走错路,虽然效率有所损失,但我们不会通过一些危险的动作立刻纠正,还是要在安全和舒适的基础上去追求效率。
问:刚提到今年实车测试是2万公里,请问大幅减少实车测试的依据是什么?
郎咸朋:成本是一方面,主要是我们在测试验证一些不可能完全复现发生问题时的场景,并且实车测试的效率太低,我们现在的仿真效果完全可以媲美实车测试,现在的超级版本和理想i8的VLA版本中90%以上的测试都是仿真测试。
从去年端到端版本我们就已经开始进行仿真测试的验证,目前我们认为它的可靠性和有效性都很高,所以我们以此替代了实车测试。但仍有一些测试是无法替代的,比如硬件耐久测试,但和性能相关的测试我们基本上会使用仿真测试替代,效果也非常好。
仿真测试效果好,成本低,我们保留实车测试是为了一些必要内容,任何技术的提升一定伴随着研发流程的变革。进入了VLA大模型时代,测试效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影响快速迭代的因素迭代掉,如果这其中仍有大量的实车和人工介入,速度是会降低的。
问:刚刚分享了端到端的瓶颈和一些无法解决的问题,VLA是当时唯一考虑的路线吗?
郎咸朋:我们一直保持着对前沿算法的预言和探索,做端到端的时候我们也在考虑下一代人工智能技术,当时业内最有前途的就是VLA技术方案,但并不是只是用于自动驾驶,它是具身智能领域的技术。我们认为它也是未来机器人领域的通用技术框架。其实自动驾驶也是一种机器人,如果未来我们希望做其它机器人,也都可以基于类似的VLA框架。
VLA架构有很多优势,相对VA模型,或者端到端模型,VLA模型是有思考能力的,这是它不可否认的一个优势。如果不是用这种大语言模型的预训练、后训练的思路,是很难把这样的知识融进去。自动驾驶想要往L4或者往更高的能力前进,L是一个必经之路。现在无论是大语言模型,还是其他的模型,也都开始做端到端的L。
问:如果量化精度高的话可以在Thor芯片上实现翻倍的算力,为什么理想汽车能够最大限度压榨芯片的能力?基于这个能力,理想汽车是否还会自研智驾芯片?
詹锟:我们从去年开始用Orin芯片做大模型部署,当时英伟达觉得这是不可能的,我们工程团队、部署团队魔改了CUDA的底层,重写PTX底层指令,才能实现现在的效果。
理想自动驾驶团队的工程部署能力是一以贯之的,从早期在地平线J3部署高速NOA,到在Orin芯片上部署大模型,再到现在Thor芯片上部署VLA高频快速的大模型。这些都是有工程积累和工程实践的。
芯片能否被压榨最主要的事做底层分析,VLA从最初推理一帧需要500-600毫秒到最后实现10Hz,提升了近10倍的效率,这其中有非常多的细节都是我们在遇到问题后拆解当前芯片适配的算法,调整算子,让算子和芯片目前的能力更匹配。大家会常用的推理模型会用FP16,我们把它降到FP8,性能做了非常的提升,同时FP4也是英伟达在最新的Blackwell架构中非常推崇的,我们会进一步把芯片算力压榨出来。
郎咸朋:自研芯片的核心原因,是作为一个专用芯片能针对自己的算法进行特定地优化处理,性价比和效率都会很高。现在我们依然使用Thor是因为英伟达对一些新算子支持较好,算力也比较充足,在整体VLA迭代过程中依然有变化的可能性,如果未来算法锁定,为了更好的效率和成本会考虑自研芯片。
问:VLA是偏向于工程能力的创新吗?
詹锟:如果关注具身智能,会发现这波浪潮伴随着大模型对物理世界的应用,本质是提出了VLA,我们的VLA模型就是想把具身智能的思想和路径引用在自动驾驶领域。
VLA也是一种端到端,因为端到端的本质是场景输入,轨迹输出,VLA也是如此,但算法的创新是多了思考。端到端可以理解为VA,没有语言模型,语言对应的是思考和理解,我们在VLA中加入了这一部分,把机器人的范式统一,让自动驾驶也能成为机器人的一类,这是算法创新。
对于自动驾驶而言,很大的挑战是必须要有工程创新。因为VLA是一个大模型,大模型部署在边缘端算力上是非常具有挑战的。很多团队并不是认为VLA不好,而是因为VLA部署有困难,把它真正落地是非常具有挑战性的事,尤其是在芯片算力不够的情况下是不可能完成的。
问:大语言模型可能缺乏长期记忆能力和长期规划,在这方面理想做了怎样的改进?
詹锟:近一年,大模型和Agent的发展非常快,记忆就是RAG能力。当我们发出指令之后可以外挂在RAG中,当下次到这里的时候可以很容易调度它,它能够记得之前到这个地方的时候发出过这样的指令,就能够加到提示词中。我们会进行提示词的微调,本质是把这些知识放入VLA输入中,大模型会具备这样的能力。
当我们把大模型系统看做一个Agent,本质是它是一个以大模型为中心构建的系统,这其中有tools,RAG外挂系统来增强它的记忆和规划能力,让他形成一个真正的完整的智能体,我们做了很多工作才实现了这样的功能。
问:从行业角度来看,目前智驾体验是比较趋同的,未来理想汽车是否会将自己的智驾能力向行业输出或开源或向其他车企售卖?
郎咸朋:我认为是可以的,我们希望为行业做贡献。但前提是,第一我们是不是能够很好地验证这套系统,因为VLA的发展还是在技术周期的初期阶段;第二,是否其他人有能力和我们一起去做这件事,他也需要有自己的评测方式、仿真环境,以及强化学习训练能力。明年沟通的时候可能会讨论一下开源问题。
问:郎博提到了VLA语言交互是很重要的一部分,何时能实现更自然的“怎么说就怎么做”的交互体验?
詹锟:未来有一个很重要的趋势是,整个车会有一个统一的大脑,当这个车对统一大脑做的迭代更好的时候,不光是理解智驾、理解车机、理解整车,它还可以做出更精准的,到底我是在操纵车的行为,还是在操纵空调,还是在打开窗户,还是在播放音乐,这方面会有更好的理解,这是我们后续长期会去做的方向。
另一个是我们现在对语言的交互、泛化理解,随着数据量增加,会越来越多,而且会有很快的迭代,也可以想象其实大语言模型早期也会有一些很傻的行为,当我们收集到更多反馈,收集更多迭代以后,进步会非常快,这其实是我们逐渐使用过程中会快速迭代的一个能力。
问:VLA还处于起步阶段,在驾驶风格或“司机性格”的个性化定制方面,未来是否会有更多可能性?
郎咸朋:我们也在考虑给不同的车、不同的使用者跟你相类似的驾驶风格的体验,不会所有车都是一套驾驶风格,因为之前端到端可能还不具备这样的能力,而强化学习是有这个能力来支撑它这个车越开越像你的风格或体验。
问:VLA更多在做大脑的事情,在感知方面还有什么可以做的更好?
郎咸朋:还是要继续提升技术能力,在VLA中我们现在对感知有一个比较大的升级,能看得更远、更精细,从原来150扩到了200米纯视觉的范围,OCC通用物体检测从原来的80扩到了125,这都是目前在VLA上做的更多技术能力提升,包括数据、包括推理性能的提升才能做到。
问:理想是国内VLA模型最早落地的车企,研发过程中哪方面挑战是最大的地方?
郎咸朋:挑战最大的是,迭代整个研发流程进行。每一个技术革新也伴随着研发流程或研发方式的迭代,去年端到端需要一个数据驱动流程,我们之前做得很好,到今年一定要做强化学习的流程,就必须要快速验证我们世界模型的可靠性、有效性,也需要快速搭建我们高效仿真环境。我们今年很多推理卡也需要大量的去购买、去部署等等。
问:后续还有很多国内友商也在跟进VLA,理想在整个研发过程中,踩过最大的坑能给大家介绍一下吗?
郎咸朋:对整个行业的判断或整个自动驾驶认知决定了你是否会踩坑。我们是不断持续迭代对自动驾驶甚至人工智能认知的,去年做端到端的时候一直也在反思,是不是端到端就够了,如果不够的话我们还需要再做什么,去年我们一直在做VLA的一些预研,它预研代表的是我们对人工智能的理解并不是一个模仿学习,一定像人类一样是有思维的,是有自己推理能力的,换句话说它一定要去有能力解决它没有见过的事情或未知的场景,因为这个在端到端里可能有一定的泛化能力,但并不是足以说有思维。
就像猴子一样,它可能也会做出一些你觉得超越你想象的事情,但它不会总做出来,但人不是,人是可以成长的、可以迭代的,所以我们一定要按照人类的智能发展方式去做我们的人工智能,我们就很快从端到端切换到了VLA方案去做。
我们一直认知还是比较好的,小坑肯定有,比如算力储备的多少,交付快点慢点等,小的工程细节、优化,但不要遇到大的判断失误,我觉得我们运气还是可以的。
詹锟:我们之前是相信ScalingLaw,下一步就是现在的testtimesScalingLaw。当我们能给更多的数据、更大的训练时长,它总能出更好的效果,我觉得这就是一个需要坚信的或者AI界现在叫“thebitterlesson,苦涩的教训”,我们要坚信这个地方。
问:感觉配合Thor芯片上车的过程不太容易,双方当时是怎么磨合的?
郎咸朋:其实我们积累的很多跟芯片厂商的供应商的这种合作经验,包括再往前推算J3芯片,当时J3芯片设计很有缺陷。但是我们会跟合作伙伴一起,去做一些优化和迭代。一个新的芯片应用,一定是伴随着一些相互之间的磨合和迭代。我们的迭代速度会比较快,不会死扣着一个方案不放,还会根据芯片自己的特点去做一些调整和优化。
Thor芯片它是一个全新的芯片,在应用、部署方面有什么问题,我觉得这都很正常的。敢于采用新的首发芯片的企业,它都会遇到这些问题并且把它解决掉。比如J3上的问题,它在J5上解决了;Orin-X问题,可能在Thor上解决了,Thor上问题可能也会在其他的方面去解决。
问:云端大模型是越大越好吗,车企到底用多少B的模型是最合适的?
郎咸朋:各有各的好,但是你是否能把模型训练到的能力能落到自己的芯片上,并且转换成用户的实际价值才是重要的。
模型的参数量越大,训练消耗的资源、消耗的东西就会越多,可能效率也会低一点。如果你还想把一个更大的模型蒸馏成一个非常小的模型,在蒸馏过程当中,它的能力损失也是可能存在的,这里面也很考验各家工程师的量化优化的一些部署能力。对于消费者来说,我们还是要看最终的产品体验以及最终给用户带来的价值。
问:在VLA的训练中,在语言模型上怎么避免大模型跟人类理解不同,产生的反常识指令?
詹锟:现在的技术而言大模型已经有了一些初步的共识方法和思路。
第一,我们需要对不好的数据做精细的清洗,清洗的越多,质量就越好;第二,生成数据。之前会有很多大语言模型会有幻觉,本质上因为“大模型”对这个东西是不理解的或者没见过的,在它这个领域之外回答问题。所以我们需要构建很多数据,甚至生成数据,去让它把这个领域理解到位,能把所有的知识能够知道,甚至知道它什么不知道,这是它很重要的一个能力。
通过这两个思路,其实大幅能降低语言模型的幻觉能力,甚至反常识的东西。第三,超级对齐,让它去更做到符合人类价值观,比如刚刚那个例子,不能跨对向车道,就是类似的思路,这是第一个问题。
问:有没有一些相关数据可以支撑纯电的用户会对智驾更加偏好?
郎咸朋:市场部的调研结论肯定是需要,都是排在首选top3里的。现在新购车的人对智驾的要求一定是排在它的首先选要素里的。
问:今年下半年开始各家车企都会推进VLA,理想的技术优势是什么?
詹锟:我们的技术栈是有延续性的,并不是从之前的规则时代突然跳到VLA,我们现在做VLA其实是一个延续性的技术架构,甚至把原来的优势都利用起来,站在巨人的肩膀上继续做。
我们在RD预研方面其实投入非常多,VLA在自动驾驶领域是相对新的一个方向和领域,理想在研发上面也专门立了TBP的项目推进VLA的技术探索,我们一直在坚持的“预研一代、研发一代、交付一代”的思路,相比其他友商或者竞争对手更有优势。
郎咸朋:理想最核心的技术壁垒还是世界模型仿真的壁垒,这个别人很难短时间去复制出来。因为它的迭代速度得确保,且还得用实车去测试,所以是很难超越我们的。第二肯定是可以拓展的,我们也成立了各种其他的机器人部门。VLA是一个很好的具身智能的技术框架,可能可以延续到其他方向。
问:理想对于VLA的壁垒的理解?
郎咸朋:5年前确实理想作为一个追随者进入了自研的自动驾驶赛道,但我们对自动驾驶的思考并不是从2020年开始的,当时李想面试的时候跟我聊,说你觉得最重要的是什么,比如想在自动驾驶做成功或者做到第一?
我说现在来看就是数据,虽然说别的都很重要,但数据必须要提前开始准备,我们是从理想ONE开始做数据闭环的一些工作,当然那时候数据还比较少。2020年我们通过第一个完整的交付年,累计了1500万左右的有效回传数据,样本是从这积累出来的。
这5年做下来,从去年端到端开始,业界或我们的竞争对手真正把理想自动驾驶当回事了,但他们为时已晚,因为这些能力建设不是一天两天就能完全建立起来或者达到我们效果的,今年开始做VLA,我们是第一个提出并马上是第一个交付的,很多人还在嘴上说,还在用端到端的方式去做VLA。
如果还是沿着端到端思路去做所谓VLA的话,你的速度一定会变慢,哪怕是1个亿的Clips,首先你要训1亿个Clips需要多大的训练算力,另外你的迭代速度会变慢。
VLA现在可能看起来很慢,就像去年端到端一样,其实端到端已经非常快了,从2021年我们走到端到端走了3年多时间,其实还是站在巨人的肩膀上,如果再往前走,整个行业如果从规则算法走到端到端的话,我可以说走了10年左右,但是从端到端开始迭代会非常快,因为那时候整个工程、整个数据都会成熟起来,到VLA,我认为也是这样一个速度,一年之后你看到一个1000MPI的产品放在你面前的时候,相信大家都会觉得自动驾驶真的开来了。
我相信在这里面真正有技术、真正有能力、真正有责任心的企业一定会率先跑出来,我相信理想肯定是这里面第一个会走出来的。
问:大家都说多模态模型还没有进入所谓的GPT时刻,这时候你们需要做一个量产方案去推送到市场上,你觉得这个方案是一个足够好的解法了吗?它抵达GPT时刻还需要花多长时间?
詹锟:现在VLM已经完全满足一个非常创新的GPT时刻,如果针对物理AI,现在的VLA,特别是在机器人领域、具身领域可能并没有达到GPT时刻,因为它没有那么好的泛化能力,但在自动驾驶领域,VLA解决的是一个相对统一的驾驶范式,是有机会用这个方式做到一个GPT时刻的。
我们想用VLA来探索一个新的路径,它有很多需要去落地的探索的点,不是说不能做到GPT时刻就一定不能去做量产落地。它我们的评测、仿真去验证它能不能做到量产落地,能不能给用户“更好、更舒适、更安全”的体验,做到以上三点就可以给用户更好的交付。
GPT时刻更多指的是具有很强的通用性和泛化性,在这个过程可能随着我们自动驾驶往空间机器人或往其它具身领域去拓展的时候会产生出更强的泛化能力或者更综合的统筹能力,我们也会在落地以后随着“用户数据迭代、场景丰富、思维逻辑性越来越多、语音交互越来越多”逐渐往ChatGPT时刻迁移,不是一定要达到GPT时刻才能做一个自动驾驶模型,比如我们落地了VLA以后不能往ChatGPT去迁移,这是我们VLA落地第一个版本后逐渐会往“更丰富、更通用、更多样化”能力去做的VLA模型。