![]()
郎咸朋完整回顾理想智驾团队发展演变历程,首次回应外界对 VLA 的质疑。
文丨赵宇
编辑丨龚方毅 黄俊杰
42 岁之前,郎咸朋从不抽烟,但在去年夏天理想研发 “端到端” 智驾方案期间,他每个工作日都得来上两根。
“之前华为、特斯拉在前面,我们照着追就行。追平之后再往前走,方向怎么选、能否执行好,没有样本可以参考。” 郎咸朋告诉我们。
理想智驾自研起步晚,2019 年团队还没成建制,缺少资源。为了做技术预研,郎咸朋和团队一度只能把激光雷达装在那些已做完碰撞测试的车上。
追赶过程中,郎咸朋提出 “不可能用华为的方式打败华为”,必须提前研发下一代技术。他促成了智驾自研进程中的两个重要决定:去年转向 “端到端”,让理想跻身智驾第一梯队;今年,他们选择做 VLA(视觉-语言-行动模型),争取成为没有争议的第一。
取得进展的同时,理想智驾团队的内部动荡与外部质疑始终存在,最近交付 VLA 时尤其如此。VLA 使用多模态 AI 大模型提升驾乘体验,强调让自动驾驶系统拥有类似人类的 “思考” 能力,而非单纯模仿驾驶行为。
华为车 BU CEO 靳玉志称 VLA 看似取巧但无法真正走向自动驾驶;博世智驾中国区负责人吴永桥则认为 VLA 落地有诸多难以解决的问题。
国庆节前的倒数第二个工作日,我们在理想北京研发总部见到郎咸朋。提及这些评论,郎咸朋表示:他们反对 VLA,恰恰说明 VLA 是正确的。
技术的演进常伴随争议,而最终消解争议的仍是产品本身。郎咸朋认为,相比有监督训练的 “端到端”,无监督训练的 VLA 迭代效率更高,最晚到明年初,外界就能看到明显提升。
相比我们此前两次交流(一年前推出 “端到端” 方案,以及两个月前 VLA 临近落地),郎咸朋这次更松弛一些,近三个小时的谈话中,他语速平稳、声音轻快。谈及理想智驾的进展和技术选择,他的用词也更笃定。
见面前不久,理想智驾团队又经历了新一轮架构调整和人员变动。这个 2018 年成立的团队已经换了三代骨干。作为理想智驾第一号员工,郎咸朋向我们完整回顾了团队的发展演变历程,他加入理想以来的工作理念和方法,并首次回应了外界对理想新技术的质疑。
以下是访谈及少量追加问答的主要内容,经编辑。灰色引用模块则是我们做的信息补充:
不可能用华为的方式打败华为
9 月 19 日,理想汽车调整自动驾驶研发部门组织架构,将整个团队重组为 11 个二级部门。
原模型算法团队拆分为基础模型部、VLA 模型部和模型工程部;原量产研发团队拆分为量产交付部、软件研发部和主动安全部;原数据闭环团队拆分为数据平台部和数据标注部;原有的规划管理部、AI 评测与运营部保留,并新增创新业务部。
调整后,理想智驾团队的组织架构更为扁平,11 个新部门负责人均直接向郎咸朋汇报。郎咸朋在内部信中称,此次调整的目的是推动团队向 AI 组织演进。此外,过往在一级部门层面多次采用的大规模封闭研发模式将被取消。
晚点:不久前,你重组理想智驾部门,还说要 “组建面向 AI 的团队”,这应该怎么理解?
郎咸朋:AI 最大的特点就是充满不确定性,这跟过去造车完全不一样。打造面向 AI 的组织,第一是信息传递和决策要非常高效,组织越扁平,越有利于这件事发生。我们原来有 4-5 个二级部门,现在变成 11 个,我跟这些人之间沟通很顺畅,决策也很快。
第二是部门 Leader 要懂业务、懂管理,最好还要做过技术。我们现在的二级部门负责人都是之前做过业务的人,不是纯管理出身。
他们都曾经把业务做得比较好,既知道我们原来怎么做,也知道现在应该做什么。我们智驾的核心管理者一定是从内部培养起来的。当然,做 Research、搞算法研究,可以从外面找一些前沿科学家。
晚点:担心团队里的核心骨干被其他厂商挖走吗?
郎咸朋:人员正常流动是合理的,但我们最终的护城河不是某一个人,也不是某一个模型,而是整个业务体系。特斯拉自动驾驶部门走的人也不少,从头到尾都走了一遍,但也没说特斯拉自动驾驶从此就不行了。
晚点:你宣布取消集中的封闭研发,这是为什么?
郎咸朋:主要有两方面考虑。
第一,时代背景变了。之前我们是追赶者,有明确目标,大家必须集中赶工。现在不是靠赶工就能赶出跨越式技术,而是需要各部门发挥自己的业务专长,共同为目标努力。
第二,这也体现了我们对员工的关怀。我们之前其实不是不考虑员工感受,而是在立足未稳时,确实需要用那种方式追进度,但我们不想造成一种 “拼命压榨大家时间” 的感觉。当然,我们对大家的要求也变了——之前要求快速、按时、高质量交付,现在要求所有人真正把能力建设起来。
理想汽车的智驾团队有时会进入一种 “封闭冲刺” 状态。为了按时交付项目,工程师们被集中到少数几个办公室,统一住进附近酒店,连续三五个月高强度工作。加班常态化,周日也要保持待命。
这样的节奏可能一轮接一轮。通勤 NOA 和城市无图 NOA 两个项目,都是在这种连续封闭开发中完成的。
晚点:为什么自动驾驶开发的节奏要这么快?
郎咸朋:我们 2021 年交付自研项目时,前后两个阶段连轴转,确实比较辛苦。当时第一阶段是从 2021 年 2 月 26 号到 5 月 26 号,需要交付基础 ADAS(基础辅助驾驶);第二阶段是从 6 月份到 12 月 10 号,需要交付高速 NOA(导航辅助驾驶)。
我们当时要求每天全员到岗,不是说有一部分人来就行。第二阶段的一个周末,大家商量好第二天休息,我同意了,但前提是当天问题要全部解决,结果到夜里我发现还有两三个没解决,但基本上 90% 的人都走了,就让项目经理挨个打电话,通知所有人回来加班。这些人一边骂着我,一边就回来了,我陪他们一起。
晚点:后来加班到几点?
郎咸朋:到凌晨三四点才结束,第二天上午还得接着测试。这样的事很多。今年 3 月 “端到端” 1000 万 Clips 版本上线时,我们用 “超级对齐” 解决安全性问题。最后效果非常好,但这个过程非常痛苦。我要求核心负责人每天早晨 8 点在顺义开晨会,很多人前一晚都是零点前后才回去,第二天早上 7 点多就又得从市区赶过来,这样持续了两三个月。
晚点:这种强度是被 “军令状” 逼出来的?
郎咸朋:那是我自己定的目标。比如去年端到端必须交付,不交付就不行。想哥(理想汽车创始人兼 CEO 李想)只是说,“郎博,我们得想办法解决现在的问题。”
在端到端之前,我们打不过华为,规则方案改了半天也不行,体验顶多持平,甚至还比人家差。想哥也跟我说,从某种角度上讲,就算你跟华为做得一模一样,大家也会觉得华为更好,改变用户心智是很难的。你得明显好于现有的东西,新市场才能打破旧市场。
晚点:只有这一条路吗?
郎咸朋:我们作为一家后进入市场的公司,不能在别人已经开辟的战场里打这场仗,那样一定会输。你要开辟一个新战场。如果我们当初不是选择服务多孩家庭这个被忽视的用户群体,技术路线上没有选择增程,而是做纯电或者燃油车,肯定打不过头部玩家。所以要开辟一个新的战场叫增程,我们自己来定义这个增程产品的 PMF(产品市场匹配)。
这样做,我们就有了获胜的可能性,但也只是可能性,要坚持执行战略才能最终获胜。自动驾驶也一样,在规则时代,我们的战略是跟着大势走,优先按时交付产品、跟上市场的主流。所以,我们 2021 年推基础 ADAS、高速 NOA,第一梯队有的我们基本也有,至少下限保持住了。
到 2023 年,目标变成进入第一梯队。那时我们有两个选择:在原有高精地图的基础上继续优化高速体验,或者把服务范围扩展到城市。想哥最后决定做城市 NOA,因为只有那样,用户心智上才会觉得理想在第一梯队。
当时第一梯队的同行陆续官宣 “开城” 进度和目标,我们也在 2023 年上海车展宣布要开 100 座城市。剩下的就是执行层面的事情了,但过程非常痛苦。那时方案还是轻图,至少得有点道路的结构信息,所以有了 “天津两条路”(2023 年底,理想推送城市 NOA 功能,但在部分城市限制开放范围,如天津仅开放销售门店附近的两条路)。后来升级到无图方案,虽然覆盖更广,但体验又不如华为。
其实到那个时候,我们就有要做第一的想法了。
晚点:“那个时候” 具体是什么时候?
郎咸朋:2023 年底、2024 年初,当时公司状态比较好,自动驾驶能力实际上已经在第一梯队,但距离大家承认理想是第一梯队还有过程。
想哥当时说,我们现在资源够了——车卖得够多,利润也到位——接下来就是要打智能化,而智能化首先就是智能辅助驾驶,要比华为有显著的能力和体验提升,说 “2024 年,郎博你一定得做到这一点”。
我告诉他,我们不可能用华为的方式打败华为,得有技术上的代际提升。于是我们上端到端,但那时大家都不太理解端到端,也不知道端到端最后带来的体验会是什么样。而且在没做出来之前,其实我们也没法明确说它到底是什么样。
但是从战略角度讲,做了不一定行,不做肯定不行。一直到去年下半年开始出成果。再后面的事情大家都知道了。
晚点:有一种声音说你们运气好。
郎咸朋:这不是运气问题。其实我们是顺着战略大势做端到端,因为我们不可能用规则打败华为,要选新的技术路线。同样的,今天端到端正从新市场变成旧市场,如果我们想做真正的自动驾驶,成为这个领域的第一,就不能继续在这个战场打,还得再换一个战场,那就是 VLA。
从今年初我们在英伟达 GTC 大会上宣布做 VLA 开始,一直到现在,至少在业界心目中,VLA 理想是第一个提、第一个交付、第一个迭代的。舆论声场比端到端时期先交付再宣发好不少。
晚点:攻擂和守擂,哪个压力更大?
郎咸朋:攻的时候目标非常明确,因为前面有人。他在做有图、无图或轻图,我们只要跟着去做就好。攻擂时,更多考验执行能力;守擂时,对综合的战略和执行能力都是很大考验。好像都挺难的。
晚点:你们是在什么时候明确意识到,端到端模仿学习存在天花板的?
郎咸朋:今年春节,正好在端到端 1000 万 Clips 版本上线前后。端到端有几个比较大的问题:跟着慢车不绕行,复杂路口红绿灯看不懂,跟人类驾驶行为不一样——该超不超、该让不让。因为我们当时提供的数据里没有这样的场景。
这事是想哥先提出来的。今年 2 月底,他说要加快交付 VLA,不能继续在这条路往上走,因为不管是用端到端做数据驱动,还是用超级对齐做算法优化,本质上系统还是没有人类的智能和思考能力。而我们的目标是做 L4 级自动驾驶。
晚点:当时有什么即时调整吗?
郎咸朋:想哥说业务要调整,连带着人和资源也要调整。我知道他要什么,所以尽管当时还没调组织架构,但资源已开始向 VLA 倾斜,加速 VLA 的研发和交付。
这也是想哥和我有默契、信任的基础。一切就倒回到 2019 年,那年我跟想哥在认知系统这块聊得非常多,经常讨论想法。我现在有这样的判断,就是源于当时认知体系的升级。
有人反对 VLA,恰恰说明它是正确的
晚点:理想自研智驾此前的六个重要项目都有代号,VLA 的代号是什么?
郎咸朋:斯芬克斯,也就是狮身人面像。传说中它会问过路人一个谜语,答对放行,答错吃掉。谜语是,什么东西早上四条腿,中午两条腿,晚上三条腿?答案是人。人出生时四条腿爬,成年后两条腿走,晚年时拄拐棍三条腿走。
斯芬克斯是一个狮身人面像趴在一个大底座上。所以说斯芬克斯项目成功要有一个基座,对应着我们的基座模型;腿的英文是什么?Leg,L4、L2、L3,我们就是要解决自动驾驶 L234 的问题。
这些都是梗,主要是我们在做 VLA 时,觉得它既是一个谜题,就像斯芬克斯里面出的谜语一样,同时还有很多未知和不确定性。
今年 3 月理想发布 VLA 技术后,竞争对手和行业观察者在落地可行性、技术路线选择等方面提出不同看法。
博世智能驾驶与控制系统事业部(XC)中国区总裁吴永桥认为,VLA 落地有四个难点:多模态的特征对齐非常困难;多模态的数据训练和提取更加困难;大语言模型存在无法避免的 “幻觉” 缺陷;当前所有智驾芯片的存储带宽都比较低,并非为大模型专属设计。
华为智能汽车解决方案 BU CEO 靳玉志称,华为不会走向 VLA 的路径,而是更看重 WA(World Action)路径。他认为,VLA 将视频转化为语言 token 再控制车辆的做法是 “取巧”,而华为采用 WA 方案,省掉语言环节,通过视觉、声音、触觉等多模态信息直接控车。虽然挑战更大,但这才是真正通向自动驾驶的方案。
晚点:最近,博世的吴永桥、华为的靳玉志都对 VLA 提出不同意见,甚至质疑。对此你有什么回应?
郎咸朋:第一是多模态对齐。据了解,博世不自研基座模型,也几乎没做过大模型相关工作。但我们成立了基座模型研发团队,智驾团队之前做 VLM 时也做过视频和文本的多模态对齐,这方面能力我们已经积累很多。这确实有难度,但难才有技术含量,对我们来说不是问题。
第二是数据训练和提取。博世自己的数据量不大,但不能简单认为我们也没有很多数据。我们搂着采,到现在还有十几亿公里的数据。
第三是大语言模型的幻觉。不能完全站在生成式数据角度来考虑,生成图像、文本。之前模型技术不成熟时,可能有问题,比如生成一个人多了根手指头,或者生成一段文字驴唇不对马嘴。但随着模型这几年不断迭代,幻觉越来越少。而且我们有强化学习、有超级对齐,有办法解决模型幻觉。我们不是用它生成一些非常泛的东西,就是用来生成驾驶领域的决策和推理结论。这些比较确定,不会出现 “你在直行突然让你掉头” 这种幻觉。
靳总说的也同理。我们已经做完端到端,过程中发现 corner case 的数据收集,最重要的是数据分布和数据质量。现在就是 corner case 分布不均衡,收集数据困难,确实挑战很大。即使有很多数据,也不可能穷尽世界上所有场景。必须让系统有人类这种思维推理能力才可以,简单泛化不行。
他们反对 VLA,恰恰说明 VLA 是正确的。出于市场竞争和技术演进的考虑,在 VLA 和端到端上线初期,我们首先要保证它们在安全性的维度上做得不差,之后再去逐步提高上限。
我们 VLA 的能力现在还没有完全发挥出来,到今年底、明年初,大家就能看到一些非常好的表现,用户会觉得这辆车真的活了。强化闭环如果形成,今天车在这个地方还不会开,明天就能开得很好。
晚点:强化闭环形成对你们意味着什么?
郎咸朋:大家都在说这事情,但你不到 VLA、不实现强化闭环的话,你是没有这个能力的。就跟你做端到端一样,之前马斯克也说过 "Video in, control out",这个思路很好,但没有人真正实现。
我们现在有机会把它实现,实现之后用户才能真正觉得,这个车在安全稳定的前提下,竟然有一些新的、别的车无法企及的能力出来。等到用户真觉得哇塞、用起来真的很舒服的时候,他们就不会再出来说世界模型不行、VLA 不行了。
晚点:看起来,VLA 的强化学习闭环对你们来说很重要,但 Andrej Karpathy(特斯拉前 AI 总监)近期说,“人类并不是通过强化学习来学习的,强化学习其实比大多数人想象的要糟糕得多。它依赖稀疏奖励信号,样本效率极低,缺乏因果理解能力。” 你们如何评价这种观点?
郎咸朋:Andrej Karpathy 对强化学习的批评更多是针对当下算法的局限性,而非对这种范式本身的否定。
模仿学习推动了 GPT 类模型的成功,强化学习则造就了如 R1、o1 这样的强推理模型——这两条路径都是 “The Bitter Lesson” 的体现:算力与数据驱动的通用学习往往优于人工规则。
我们认为,目前的强化学习是比模仿学习更接近人类学习的终极形式。未来我们会持续迭代更高效、更具因果理解与泛化能力的学习方法。
晚点:理想 OTA 8.0 版本我们体验下来,感觉横向控制比端到端最后一个版本更灵活,但纵向控制会保守一些。
郎咸朋:因为我们做了很多安全限制,说白了就是怕刮蹭甚至撞车。我们有一些横向表现很惊艳,特别是内测第一版 VLA 非常灵活,横纵向都很好,但如果后车不注意,还是有风险。而一旦出事故,可能被外界借势否定 VLA,那我们后边就全完了。
所以,我现在宁可让大家说我们怂一点、慢一点,但至少没有太明显的缺陷和漏洞。在这个基础上,我们现在致力于打造训练的强化闭环。这个闭环今年底前应该能搭出来,到时候用户会觉得这个车真的 “活” 了,就像一个每天在成长的人,不再需要用户一个个问题去反馈。
我相信我们能第一个做到。
晚点:理想原计划 9 月底更新的 VLA 新版本没有推送,听说行业主管部门开始限制智驾软件 OTA 的频率。这会对你们造成什么影响?
郎咸朋:确实,近期行业主管部门对智驾 OTA 更新的频率提出了新的规范,我们已与相关部门完成沟通和流程优化。我们认为,这个做法的目的是强化以用户安全和质量为前提交付智能驾驶产品,对行业长期健康发展有很大好处。
这一调整对理想智驾研发和用户体验不会有影响。我们会继续在合规前提下保持技术快速演进,确保每个季度都能为用户带来高质量、实质性的功能升级与体验提升。
晚点:你觉得 VLA 就是实现 L4 的那条路吗,还是需要更新的技术?
郎咸朋:目前我认为 VLA 可以实现 L4,但以后一定还会有新技术出来。开车这件事并不需要很复杂的技术或很高的智商,一般人都能学会开车,所以 VLA 够用。但技术本身会持续迭代,比如将来人工智能发展到让每个人都像爱因斯坦或各领域专家那样,那需要比 VLA 更高级的技术才能实现。
与 VLA 模型类似的一个概念是世界模型,对于这两者之间的关系,业内有不同说法。
蔚来智能驾驶研发副总裁任少卿告诉我们,VLA 本质上还是语言模型的模态扩展:LLM(Large Language Model)只包含语言,VLM(Vision Language Model)加上了视觉,VLA(Vision Language Action)再加上了动作。这些扩展虽然加入了新模态,但 “根” 依然在语言模型上。蔚来世界模型不是 “语言加法”,而是要建立一套高带宽的认知系统。
而在任少卿看来,只有让语言模型和世界模型两者融合,才能形成真正的通用人工智能(AGI)。
晚点:除了理想,蔚来、小鹏等厂商也都在提世界模型,但似乎每家厂商说的世界模型不是一个意思。比如,任少卿说蔚来世界模型的目标是建立基于视频 / 图像的 “时空认知”,补齐语言模型的短板。对此你怎么看?
郎咸朋:蔚来的世界模型最终要跑在端侧,这不太合理。就跟人一样,我不用非得动用所有大脑知识去开车。实际上技术架构还在演进当中。他这样说是便于大家理解:你看 LLM 只有 L,VLM 多了个 V,VLA 多了个 A,但我一个 WM(World Model) 能一统天下。
本质上,理想汽车的世界模型模仿的就是世界,我们想生成这个世界的所有场景,世界模型是为 VLA 模型服务的。当然,VLA 只是一个代号,这个模型首先能看懂视觉的输入,然后有自我推理和思维的能力,并且能产生相应的动作,就跟人一样。不管叫 VLA 还是 ABC,它就是干这个事的。
我们为什么还有世界模型?因为强化训练 VLA 模型时,需要有个环境,我必须有一个强化训练的闭环。闭环的前提是有一个虚拟的仿真世界,然后车在里边跑。我们的世界模型是干这个的,它是支撑 VLA 模型的闭环仿真训练用的。
至于任少卿说的世界模型,跟我们 VLA 模型是一个 Level 的,他说的还是模型本身。我们说的世界模型,则是强化训练闭环的重要基础。而华为的那个 W Engine,有点像我们说的世界模型。
晚点:杨立昆(Yann LeCun,meta 首席人工智能科学家)提出,世界模型并不只是 “感知” 和 “反应”,而是构建出一个可以想象未来的世界副本。这与你们理解的世界模型意思相同吗?
郎咸朋:Yann LeCun 和我们对世界模型的理解是一致的,即智能体通过理解当前世界、结合过往经验和行动计划,去推测未来的可能状态。
我们也认为,真正的世界模型不只是 “感知” 与 “反应”,不是一个简单的端到端的状态,而是要在内部形成对外部世界的可预测表征,能够想象并评估未来的状态,从而指导合理的反馈与动作。这一理念正是我们的世界模型做的事情:不仅能生成各种场景用于对 VLA 模型的评测,更可以具备对未来行为的反馈和建议,从而进行强化训练。
晚点:世界模型是不是对云端算力的需求很大?
郎咸朋:非常大。
晚点:华为不久前发微博,说他们的云端算力有 45 EFLOPS,还是挺让人吃惊的。相比之前的公开数据,已经提升 2 倍以上。
郎咸朋:差不多。
晚点:真有必要建这么大的云端算力吗?
郎咸朋:华为没有解释这个数字背后的事情。云端算力分两块,推理和训练。VLA 模型需要训练算力,世界模型本身也需要训练算力。我们用世界模型生成各种各样的仿真环境,还需要大量推理算力。这些算力加在一起是我们的云端算力。现在理想是 10 EFLOPS 的训练算力,加 3 EFLOPS 的推理算力。将来推理训练还会继续增加。
晚点:推理算力会超过训练算力吗?
郎咸朋:现在看起来,一半一半是合理的。
晚点:理想今年在云端算力上的投入大概是多少?
郎咸朋:现在还在迭代当中,没有最终定数,因为我们现在的训练闭环还没有完全闭上。但我们在算力方面投入不设限。
晚点:去年的云端算力一共投了多少钱?
郎咸朋:8 EFLOPS,差不多在 10 亿元人民币量级。
晚点:理想 VLA 车端模型的参数量是 4B,云端模型呢?
郎咸朋:我们最终会做成 32B,现在正在做。我们希望云端模型的参数量也别太大,比方我做个 320B 的模型,再把它蒸馏成 4B,那蒸馏成啥了?
晚点:所以智驾的云端模型和大语言模型还不太一样,据说 GPT-3 的参数量大约是 1750 亿。
郎咸朋:对,那个就更夸张了。我们目前觉得不需要那么大的模型,当然这个也还在不停地摸索和迭代当中。
晚点:有同行说,VLA 在现有智驾芯片上落地有难度。
郎咸朋:现在的智驾芯片确实都不是为大模型专门设计。我们是通过工程优化能力把 VLA 模型部署到非大模型定制的芯片上。而理想的自研智驾芯片完全按照 AI 要求去做,包括算子优化和模型部署优化,这些在芯片设计之初就已经考虑到,并且可以根据自身需求定制一些东西。模型参数量可能现在还不是特别多,但芯片可扩展,几颗芯片并在一起能扩大参数量。一颗不行,我们用两颗。
晚点:在自动驾驶领域,特斯拉最先把 “端到端” 这个概念讲出来。马斯克在特斯拉 2023 年股东大会上说,"Video in, control out",当时看来非常超前。
郎咸朋:的确。端到端之后,我们要做的就是把 VLA 真正打磨好,保持用户体验领先。我们相信这个技术肯定可以,只是还需要一些时间在交付线上验证。
除了交付线,还有能力线。在端到端之前,我们花了很长时间建设数据闭环能力,但这有个条件——你真得有那么多数据,所以只有等我们卖出几十万台车之后,闭环的速度才会越来越快。
2021 年之前,我们全部数据量加起来不到 1 亿公里,但后面每年几亿、几亿的往上走。去年我们有意往下压了压,只挑选最核心的高质量数据。如果我们去年跟以前规则时代一样放开采数据,今年至少是 20 亿公里。
不过后来我们也迭代了,不再需要 100 亿公里,只需要十几亿公里高质量数据就够,然后用这些数据去训练世界模型,让它产生更多数据。我们之前的认知还停留在端到端、模仿学习——有多少数据进来训练,出什么样的结果。但这样也不行,因为有些 corner case 的数据采不到,或者采回来的数据量很少。一些碰撞事故也不可能天天自己拿车去撞、去采,这不合理。
再说这也不是终局,终局会是一个强化训练闭环。关于这个闭环,这阵子我跟团队交流,我发现大家可能都想得有点狭隘。
晚点:哪里狭隘?
郎咸朋:我先拿端到端举例,你说端到端是个技术吗?它是个技术更新,但它更大的一个颠覆,实际上是对自动驾驶业务的颠覆。
晚点:它是一种思想。
郎咸朋:对。之前大家的思想是做功能,跟软件开发流程一样。先设计功能指标、逻辑,然后找程序员写代码,再做评测。端到端之后,不再是人工设计功能,而是提供数据,让系统自己训练得到结果。
端到端仍然有一些验证、测试相关的问题需要人工解决,可以理解为有监督训练。到了 VLA 就是无监督训练,完全可以自己迭代。如果强化训练闭环的完全体上线,半年一年可能顶过去五年十年。
所以大家可能理解得狭隘了,认为 VLA 加强化学习只是技术变革,其实它是整个业务的一个大变革,落地后会成为企业真正的护城河——不是模型、数据或芯片,而是整个业务流程。这个能力建设不会很快,需要一两年迭代。一旦迭代完毕,比如我们 2025 年开始做 VLA 强化闭环,2025、2026 两年做好,到 2027 年就全都变了。
晚点:你们 2027 年要做到 1000 公里的 MPI(Miles Per Intervention,平均接管里程)?
郎咸朋:我们预计到 2026 年底是 1000 公里的 MPI,到 2027 年可能就不用 MPI 这个指标了。就像最早造车时,衡量汽车质量的指标跟现在不一样。那时车经常坏,现在车不会坏,人们关心的是磨损等指标。
我们现在要么自己测试仿真发现问题,要么推向市场后用户反映发现问题。强化闭环出来后,不用你说,系统自己就知道哪有问题。今天这个用户接管,明天那个用户开车顿挫、急刹车,系统会自动收集问题,数据回传后自动强化训练,迭代完就上线。
2019 年,郎咸朋为理想自动驾驶业务发展标出四个关键时间节点:2021 年确认自动驾驶核心技术方案;2023 年拿到自动驾驶入场券;2025 年成为顶级自动驾驶公司;2027 年实现 L4 常态化运营。
郎咸朋在 2019 年的自动驾驶 LSA 战略分析文档中写道:
高效运营数据闭环有两个前提条件。
第一,确认算法能力 A:这将决定一个自动驾驶系统的能力上限。在选择算法方案时,必须具备一定的前瞻性,以确保技术上限足够高,避免未来因能力不足而陷入困境。同时,这个选择需要尽快但慎重地做出,因为一旦核心算法方案确定,中途更换将意味着推倒重来。
第二,最大化有效数据量 D(t):数据将驱动算法迭代。为了最大化有效数据量,车辆必须标配与数据闭环相关的软硬件,并且这一选型需要在后续车型中保持一致,否则数据将无法被有效利用。数据量的增长要依靠产品销量支撑,因此企业必须具备打造一流量产自动驾驶产品的能力,以及良好的交付能力。
晚点:特斯拉 FSD 已经进中国了。一年前你告诉我们,理想和特斯拉在自动驾驶领域有半年差距,现在呢?
郎咸朋:现在大家差距还没拉开。等我们上了 VLA 加强化闭环之后,真正实现自我迭代,就会是代际差别。到那时,我们可能会在中国市场超过特斯拉。特斯拉在中国不会有像我们这种便利的环境做闭环迭代。
晚点:有内测用户说,特斯拉新的 FSD 14.1.2 已修复 95% 的犹豫变道和刹车问题,“过去两天我都没有碰过方向盘”。理想如何评价 FSD V14 版本?
郎咸朋:我们非常关注 FSD V14 的进展。从现有用户视频来看,表现确实非常出色,解决了不少长期存在的长尾问题。后续我们团队也会在美国本地做实车体验。
就在 10 月 21 日 ICCV 大会上,Ashok(特斯拉 AI 软件副总裁)展示了特斯拉的模型框架,其中已明显包含 Language 模块,并且引入了如 3DGS 等多模态任务,这与我们 VLA 体系(Vision-Language-Action)在理念上高度一致。
理想 VLA 同样不止于语言或行为层,而是通过多模态世界理解、决策与动作协同,实现闭环学习与自我进化。
整体而言,特斯拉与理想在技术路径上方向一致、实现细节不同。我们把 FSD V14 视为一个值得学习和对标的关键对手。
晚点:现在特斯拉一个重要的迭代方向是硬件算力,Hardware 5.0 甚至 6.0。理想会去做更大算力的硬件吗?
郎咸朋:特斯拉的资源和能力支撑它这么做,这并不代表它一定对,但是把算力预留多了,总的来说没坏处。其实现在所有人都不确定到底多少算力够用,但一定会收敛到合理数值。
业务流程变革完成后,我们就知道合理算力是多少了。可能未来一两年我们能回答出来,到底车端是 1000TOPS 还是 2000TOPS。总之不会太大,因为驾驶相对比较简单。
晚点:要最终实现自动驾驶,刚才你提到很多便利条件,包括端到端和 VLA。最大的挑战或者瓶颈可能会出现在什么地方?
郎咸朋:真正的自动驾驶需要变成大规模落地的应用,技术只是第一个挑战。更大的挑战来自怎么大规模商业化落地。就像是 iPhone 怎么说服大家使用 App Store、iCloud 服务。而且必须一上来就弄得特别好,否则大家可能会直接否定这个商业模式。
所以我会更加慎重地去做。在技术上可能会做得激进一点,但在商业化落地上,需要更稳妥一些,充分准备好之后再推向大众。
晚点:而且不仅是国内市场,它是全球市场。
郎咸朋:先做国内就行。国内的商业化落地也是很大挑战。
辅助驾驶就需要很长时间做用户教育,如果看最早供应商做的 ADAS,包括 Mobileye 开发的特斯拉 Hardware1.0、2.0,距今已过去十几年。L4 实际上是无人状态,法律法规包括大众的接受程度,会是最大挑战。
晚点:你说 L4 先做国内市场就可以,但是你们前段时间刚建立创新业务部,据说是面向海外市场的。
郎咸朋:除了美国,海外其他地区对智驾的接受程度还停留在国内市场前几年的水平。而且海外的法规还需要持续地去影响,包括我们产品怎么做。
所以,我们就先建立这样一个海外预研部门,一方面交付产品,另一方面预研将来 L4 怎么在海外落地和推广。技术上都一样,但是商业化落地、产品设计和研发,跟国内肯定有区别。
系统在痛苦中建立,业务演进导致组织变化
晚点:你加入理想将近八年,最艰难的时刻是什么时候?
郎咸朋:2019 年,那时候我个人的系统还没有建立好,正在经历从研发工作者到业务负责人的转变,这个过程非常痛苦。虽然后面也遇到过很多困难,但那次转型是最痛苦的,就像把你整个人撕裂开来,再重组,然后让你完成一次彻底的迭代。
晚点:最有成就感的时刻呢?
郎咸朋:到目前为止,应该是去年端到端的量产落地。VLA 现在还没完全弄好,但端到端让我非常有成就感。
再往前,就是 2021 年 5 月 “卫城” 项目的交付,我们用不到 90 天完成这件事,那是我们真正第一次从 0 到 1 交付,让我终生难忘。如果那次失败,就没有后面我们所有的自研过程。去年端到端方案的交付,是我们第一次从落后反超到领先。下一个重要时刻可能就是真正实现 L4。
2021 年 2 月 26 日,理想启动其首个全栈自研的智能驾驶项目,内部代号 “卫城”。项目英文名 “Acropolis” 是 “ADAS Capability Research Original Production On Lixiang SUV” 的缩写,代表 “理想汽车 SUV 车型原厂智驾功能研发”。
为配合 “卫城” 主题,项目各个团队也采用了希腊神话中的代号:如硬件团队为 “雅典娜”(Athena),算法团队为 “阿尔忒弥斯”(Artemis),数据团队为 “波塞冬”(Poseidon),分别象征着战争、狩猎与数据海洋。
在 “卫城” 项目上,理想智驾团队第一次采用集中封闭的开发模式。春节假期刚过,项目团队就分头在北京望京、连云港东海等地启动研发。
晚点:2021 年 5 月落地基于双征程 3 自研方案时,自研团队有多少人?
郎咸朋:整个团队不到 100 人。“卫城” 项目是从各个团队东拉西凑人手组成的,加起来一共 100 多人,那份名单我现在还留着。
晚点:从 2021 年到现在,你们的组织架构是怎么演变的?
郎咸朋:2021 年时你说有啥组织逻辑?就一个项目组。不过从开始自研到现在,我们的骨干人员已经走到了第三代。2021 年之前,算法研发的主力是王轶伦,软件研发的主力是关书伟。当时贾鹏刚入职不久,在做数据闭环。
晚点:有理想的人说,你们数据闭环做得好,因为招了一个英伟达的人过来,那应该就是贾鹏。
郎咸朋:对,其实英伟达也没做过数据闭环,当时大家也没数据,但贾鹏的能力肯定够。我们之所以能成功,最大护城河就是数据闭环。等 VLA 成功的话,护城河就是现在正在搭建的强化训练闭环。
第一代骨干是王轶伦、关书伟、贾鹏,这三个人跟我一起做了 2021 年的自研。完成从 0 到 1 后,王轶伦和关书伟走了。轶伦去做量化,书伟辗转了好几个地方。
第二代骨干是贾鹏、王佳佳和我。第二代一直走到端到端时,夏中谱加入团队。现在是第三代,新班子以詹锟、湛逸飞为主,加上后面 9 个二级部门负责人,一共 11 个。希望有人能成长为像湛逸飞、詹锟这样的角色。
其实詹锟 2021 年就来了。他当时还在更下面一层,经过这几年从 NOA 到端到端再到 VLA,慢慢成长为二级部门负责人,在管理和研发上都有很大贡献。
晚点:你们早期人事变动也挺多。
郎咸朋:完成自研的从 0 到 1 之后,大家观念和想法有变化,比如有人对比蔚来、小鹏都几十上百亿地投,人数也比我们多很多,觉得公司投智驾投少了。
想哥的经营逻辑是不能乱花钱,要保证毛利,保证经营利润率是正的。我们确实是新势力几家里经营利润率最早转正的,但他们可能觉得没必要这么抠,应该放开投自动驾驶。
成功最必要的条件是坚持,其次才是能力或者才华。团队里负责算法模块的一位同事,之前做了很长时间数据、质量分析等很多周边事情,对业务全局有了更广度的了解。而且做了很长时间,深度也够。这时再让他做核心算法模块,就更有信心做好。
我们还有位同事是理想智驾部门最早一批,中间离开过,到 2021 年我们开始自研又回来了。他做过地图、系统软件架构,还做了数据相关的事情,最终慢慢稳定在 AI 评测与运营。
这是我培养人的方式——核心负责人应该对全面业务有一定了解,而且愿意为这件事情的最终达成做任何事。
晚点:作为一位带领千人左右团队的技术高管,你怎么培养自己管理团队的能力?
郎咸朋:我是 2018 年加入理想的,之后一年多感觉啥也没做,也没资源,团队就十来个人,天天跟着供应商后面做测试。团队内部也不相信我们,觉得我来了一年也没干啥事儿,是不是能力不行,从百度过来忽悠人的?
我们其实也想做点事情,当时我问铁哥(理想汽车 CFO 李铁)要了一点经费,买了几个 Velodyne 的 64 线激光雷达。既然不让我们做 L2,因为 L2 有供应商做,那我们就自己做点 L4 的预研呗。就跟小马智行楼天成的想法一样,一方面交付 L2,另一方面研究 L4。
那几个激光雷达得找车装,但也没车,我们就找做碰撞测试报废的车里还能开的。一个激光雷达大概要花 60 万到 80 万,一共花了铁哥 300 多万。这些钱放在任何自动驾驶公司都是毛毛雨,但那时候对我们来说简直是不可多得的东西。
有时候我们把激光雷达放在办公桌上做实验,铁哥看见就说:“郎博,你这个激光雷达还用不用,不用把它们退了。” 要知道这是 2019 年,那时候理想融资非常困难。想哥那年到处找投资人,见了上百个投资人,最后才找到王兴投资。如果没有王兴,2019 年整个公司可能都有很大风险。
那时期我也痛苦,事后想想大概是因为老在想怎么表现自己。很多有才华的技术人员都希望能展示才华,但他不知道展示才华有个前提:你得在这个大平台上,让这个平台跟你一起成长。
晚点:后来是怎么转变想法的?
郎咸朋:所有组织变化都跟业务相关,所有业务变化都跟战略相关。这是贯穿始终的主线。LSA(Li Strategy Analysis,理想汽车战略分析法)对我的指导意义非常大。
那时候想哥找我谈话,建议用 LSA 的框架看人生、业务、战略目标,然后根据战略目标设置业务目标,有了业务再建立组织,组织之后才是架构,然后还有资源和钱,结合整个公司背景来看这件事情。
当时他跟我说,假设我现在就给你 100 个亿,你能把自动驾驶做出来吗?你得判断什么时候能做好,或者建立起基础能力需要多长时间,需要什么样的资源。
其实 2017 年入职之前面试,我就在跟想哥说,自动驾驶最重要的是数据。想哥后来就说,郎博,你最初是不是这么说的?那如果咱要做到这一点,第一步肯定不是买几个激光雷达,而是要把车先做好,所以就得跟供应商一起把车上这套系统先交付了,然后车先真的能卖起来时,咱有现金流、有经营利润了,才能慢慢再投自动驾驶。
站在今天,想哥说的话都应验了,后边确实一年年投的也多了,理想投自动驾驶累计也是几十个亿、上百个亿了。但倒回到 2019 年时,别说 1 个亿了,连 1000 万都没有。那时候道理是这个道理,但作为负责人心里不爽。
晚点:当时小鹏、蔚来不仅是国内几百人的研发团队,海外团队也在建。
郎咸朋:想哥当时劝我说,就算现在给你资源,也只是满足一时的执念,不会有真正的积淀。
我那时很挣扎,从百度过来一年多,收入低、项目难推进,看着以前的同事都在大厂风生水起,确实煎熬。也想过离开,但冷静想想,理想这个平台、包括想哥本人,还是能支撑我们做出真正的 L4 自动驾驶。
所以我选择留下。很多人换平台,但我觉得真正能做成事,需要系统性的思维,而不是遇到挫折就换赛道。
晚点:你是怎么用 LSA 这套方法做自动驾驶业务的?
郎咸朋:LSA 抽象起来就是几句话:认知决定战略,战略决定业务,业务决定组织和资源。
首先,你要不停迭代自己的认知,我当时对自动驾驶的理解已经够了。接下来是战略目标:理想要在哪一年实现自动驾驶?为了实现目标,比方说需要 100 亿公里数据,那就得算算整个公司大概在哪一年能累计交付 100 万辆车。我们去年累计交付百万辆车了,所以自动驾驶才开始爆发,这非常符合当时的设想。
在这个过程中,一方面你别让公司垮了,别让公司钱全投给自动驾驶,公司还经不经营?另一方面,你在有限资金下,怎么更好地积累能力,等到公司真有 100 万辆车时,你别拿不出能力来。
所以之前有两条线。明线是要做交付,暗线是团队内部的业务能力搭建。在 2024 年端到端之前,我们的业务能力最核心的就是如何构建数据闭环。我在自己 2019 年的 LSA 里就写过这句话:自动驾驶的本质是高效的运营数据闭环。从业务出发,到组织和资源,当时都算过了,我们大概到 2025 年之后,一年稳定花 30 个亿左右。现在我们差不多也是这么花的。
2019 年,郎咸朋在自动驾驶 LSA 战略分析文档中写道:自动驾驶技术要解决的核心问题,是让车辆的自主驾驶有效区域(记为 I')不断扩大,直至完全覆盖真实世界(记为 I)。其能力发展可以用一个公式来描述:I' = A · D(t) · δ(t)。
A 代表算法能力,由算力、传感器、执行机构等硬件与核心算法共同构成。D(t) 代表有效数据量,随车辆保有量增加而逐渐增大,最终趋于一个稳定且巨大的数值。δ(t) 代表数据闭环的效率,即数据转换到算法的效率。
郎咸朋当时分析称:在公式的三个乘数中,算法能力 A 一旦选择之后就是常量。有效数据量 D(t) 虽然是变量,但如果软硬件标配后可最大化这个数值为一个与销量相关的常量。所以只剩下一个关键变量,即数据闭环效率 δ(t),它将决定整个自动驾驶的能力发展。因此,自动驾驶的本质是:高效运营数据闭环。
郎咸朋:我肯定不是天才,也不是最优秀的人。我相信很多人都能跟我一样,在某个时间点做出后面那些认知和规划。但难的是这需要很多时间去实现,而且过程当中有很多波折和坎坷。你能不能在遇到任何情况时,还能坚持你当时自己的认知、判断和规划。
这个非常重要。简单说就是你制定了一年期的锻炼计划,刮风了、下雨了、打雷了,你是不是能风雨无阻地去锻炼?
晚点:总结起来,就是既要有一个非常远期的计划,同时又要把远期和近期的工作目标结合好?
郎咸朋:还不是结合,就是在遇到一些现实的困难和问题时,你能不能不受它们干扰?比方说公司要优化、要裁员,公司经营不下去了,难道还给你投很多钱吗?但不论公司有什么样的困难,你都要坚持住你自己之前做的认知上的计划。
刚刚说了一个负面的,还有正面的。2023 年车卖得好,年底奖金给得也挺多,整个公司也挺膨胀。当时就说,郎博你们这个自动驾驶不行,得多招人。我当时的认知是不需要很多人,跟特斯拉差不多就行了。
特斯拉两三百人,我们没有它那么厉害,有五六百、七八百人就行了。总之肯定不要几千人,人一多自然会有问题。实际上,到年底我们也就 1000 人多一点。
在我的数据闭环思路里,从 Operation(运营) 到 Validation(验证),整个系统自我运转起来后,不需要那么多人。特斯拉已经给了很好的示范,全球运营几百万辆车,做自动驾驶的也就这几百人。
特斯拉只有 FSD 一个平台,我们可能是两个平台,英伟达的,地平线的。那我们人数比特斯拉多一倍,500 人差不多了。我再比他笨点,七八百人就差不多了。你肯定不能弄到两三千人,这肯定是不可想象的。如果人一多,这些人势必就会证明:人多是对的。那就减不下去了。
在高峰时不膨胀,在低谷时不放弃
晚点:你 2018 年来理想时,和李想说的是要做自动驾驶,还是智能驾驶?
郎咸朋:自动驾驶,甚至是无人驾驶,当时还聊到 L4/L5 级别。当时只能去车企——百度不造车、没有数据,得跟车厂合作。国外车厂隔得太远,而且奔驰宝马的数据也不会开放给我们。
晚点:在理想这七年多,哪些超出你的预期,哪些在当初的设想之中?
郎咸朋:刚入职理想时,有管理岗(M 岗)和研发岗(P 岗),我还主动要求把自己放 P 岗,就想着把技术做好。但后来才明白,如果想真正做好技术,必须把整个业务管理都做好。
实现 L4 涉及技术、产品和商业三个部分。我之前从没想过商业还跟我有关系,但我正在做的就是规划 L4 实现后的商业战略。这完全不同于很多人想的,比如 Robotaxi 或者售卖 FSD 功能就是商业化。其实 iPhone 背后的商业价值是智能手机加整个 iCloud 等服务体系,还挺复杂。
晚点:现在你怎么分配自己在工作上的时间?
郎咸朋:放在技术上的比例越来越少了,我的工作重心已经转向管理和战略。大概 50% 的精力放在管理上,主要是组织、人员、资源等短期日常事务;30% 用于中长期的战略和商业规划;剩下的 20% 放在技术和业务进展上。
晚点:你什么时候最焦虑,当时是如何度过的?
郎咸朋:做端到端之前,我从来不抽烟。到端到端那时候就开始抽烟。早晨从家到公司抽一根,晚上回家时,夜深人静再抽一根,然后思考怎么研发端到端。那时的焦虑还是在于,能不能把这个技术、产品突破出来,因为我们真正开始做领头羊了。
之前华为、特斯拉在前面,我们照着追就行。追平之后再往前走,方向怎么选、能否执行好,没有样本可以参考。这确实是更焦虑的时候。
不过刚开始超越别人时,我可能想得比较多,现在 VLA 已经超越了一部分,我反而能看得更清楚。回头看来时路会发现,只要我作出的决策合乎战略选择、符合历史大势,就一定有办法把问题解决好。
晚点:你们团队现在有很多校招生,他们年轻又有潜力,你怎么培养和管理这些人才?
郎咸朋:这些人都有自己的想法,你很难说服他们,而且他们可能都觉得比你聪明、比你厉害。最关键的是把公司战略和目标讲透,让他们明白我们到底要去哪。想哥也经常这么做,他跟校招生平均每个月有一次沟通。
优秀人才不可能被说服,但可以让他们在理解目标之后愿意跟着一起走。还有就是给足资源和空间,让他们能放开手脚做事。
晚点:如果今天的你给 2018 年刚入职理想时的自己提一条建议,可能会是什么?
郎咸朋:我真觉得一切都是最好的安排。我学到的最大经验,就是不要跟年轻人讲经验,他们是靠自己去悟。如果非要说的话,就是能不能把 2019 年的迭代再提前一点?但 2018 年时公司又没有 LSA。到目前为止,人生没有什么遗憾,很多人觉得遗憾,还是因为没有看透事情的本质。
不过说起来,我曾经觉得自己有一个遗憾,但不是在工作中,而是在学习中。虽然我后来读博,但我最大的遗憾是没有上一个好本科。
晚点:沈阳化工学院。
郎咸朋:我那届沈阳化工学院从山东招了 20 个人,只有 7 个最终留在那所学校。很多人是看学校一眼就直接走了,说 “我要回去复读,这是什么破学校?不待。” 但我当时觉得既来之、则安之,想着在学校里好好学,等考研再考出来。
考研时,我还问学校里一些相对比较优秀的老师,什么学校比较好?说能考上中科院沈阳自动化所就非常好,因为连他们自己都考不上。我最后考上了,但发现还不如考清华北大的研究生,或者到中科院北京自动化所来读书。
所以我之后还是觉得,视野决定认知,在一帮矬子里边当将军其实不能证明什么,一定得出来。
后来到了百度。大家都觉得百度挺好的,可我想做自动驾驶,想到离车近、有数据的地方去。到理想后,从卫城到无图是有突破,但还没达到公司要求,我自己也不满足——做无图还是被华为和小鹏压着。那怎么能突破?端到端、VLA。
晚点:假设你最终实现了 L4/L5 级别的自动驾驶,之后可能会选择做什么?
郎咸朋:我应该还是会一直去挑战一些不太可能的极限,而且我会得到很大乐趣——当别人都觉得你不行的时候,你做成了,是很爽的。这包括之前的卫城,也包括后来的端到端和 VLA。
我肯定能做成一些事情,这并不是说我对自己迷之自信,而是掌握了一定的方法和规律。事物的发展一定有高峰和低谷,那么在高峰时你能不能忍住不膨胀?在低谷时你能不能忍住不放弃?在聪明才智以外,这才是核心能力。
题图理想汽车





     京公网安备 11011402013531号