编者按|2025年4月23日,以“拥抱创新 共赢未来”为主题的2025第二十一届上海国际汽车工业展览会在沪举办。搜狐汽车·以直播探访的形式,与整车及汽车产业链上下游的50余位海内外企业领导继续展开“王牌对话”,探求当下汽车产业的发展新趋势、新特点。
出品|搜狐汽车·
作者 丨 胡耀丹
4月23日,元戎启行宣布与火山引擎达成深度合作,双方将深度协同,联合车企共同打造AI汽车。当日,元戎启行以“轮上AI驱动未来”为主题开展了一场深度对话,元戎启行CEO周光与火山引擎汽车总经理、智慧出行与具身研究院院长杨立伟,针对VLA技术、智能驾驶战略等展开讨论。
元戎启行是一家智能驾驶领域的独角兽企业,是坚定的“无图”智驾派,目前将主要资源投入研发端到端、VLA等前沿智驾技术。
“去年北京车展,我们展示了端到端技术的演进和模块化,在行业内起到了技术引领的作用。对于VLA技术,我相信明年它很可能会成为行业共识,虽然现在还不是。”周光表示,元戎启行是中国无图智驾技术的开拓者,用实际成果证明了无图技术的可行性。现在,无图技术已经成为行业标准答案。
具体到VLA技术的优势上,周光认为,VLA能解决很多人担心的可解释性问题。“现实世界很复杂,很多情况无法用简单的代码条件来涵盖。如果模型具备语言能力,就能用语言向人解释它的行为,这会让人更有安全感。”周光说,如果在技术发展过程中不重视安全,盲目追求数量和规模,是很不负责任的行为。
针对如何平衡性能和成本的问题,元戎启行的观点是,要在正确的技术道路上降本。“我们不会走向更低端的产品路线,因为从技术演进的角度来看,那样做没有意义,不符合技术发展的规律。我们更注重在先进技术的基础上,通过优化和创新来降低成本。”周光说。
面对当下业内热传的“L3上车”趋势,周光指出,一个 L3 级系统,用户想在途中休息一小时,但车只开了 50 米就卡住了,无法到家,这样的系统用户肯定不想用。因此,L3级智能驾驶要在安全性和智能性之间找到一个平衡点。不能一味地追求绝对安全而让系统变得过于保守,也不能只注重智能性而忽视安全。
以下是采访速记(有删减):
Q:今年辅助驾驶分管部门针对辅助驾驶乱象发声,怎么看现阶段辅助驾驶传播的问题?
周光:国家的指导意见对行业是好事。智能驾驶和安全紧密相关,以前宣传和技术实际水平不太匹配,不是像手机 APP 重启一下那么简单。现在的意见能让行业更专注于技术本身和安全问题。这会让企业更加踏实地去提升技术,而不是过度夸大宣传,对整个行业的健康发展很有帮助。
元戎今年技术核心围绕安全。比如在做模型的后训练时,我们特别重视安全对齐。只有系统足够安全,我们才会推向市场,这既是对行业负责,也是对消费者负责。如果安全没保障,技术再先进也没用,所以安全始终是我们的首要考量。
Q:安全性能在辅助驾驶中至关重要,如何理解辅助驾驶与安全的关联?安全性能怎样走进千家万户?
周光:我试驾特斯拉 FSD V13 的时候,最大的感受就是它在美国版本下没有监管意愿。一上车,整个 AI 系统好像预判了我的预判。我认为,辅助驾驶的好坏应该用接管意愿来衡量。车辆在行驶中可能有很多接管情况,如果有太多无效接管行为,即便很安全,消费者也不爱用。而且碰撞隐患也是技术要解决的关键问题,好的辅助驾驶应该更像人一样驾驶,达到这种程度后,初级的安全层面自然会提升,驾驶体验也会更好。
端到端技术出现后,智能驾驶在拟人化和聪明程度上有了很大提升。我觉得,只有聪明又安全的 AI 系统,才能真正赢得消费者的认可。像一般单次用车一小时,如果十次里有八九次都没有接管意愿,那这个系统就非常不错了。
端到端技术虽然在拟人化上提升了体验,但安全底线也不能忽视。我们在研发过程中,要不断优化技术,确保安全性能的稳定提升,让消费者真正放心使用辅助驾驶功能。
Q:大模型提升了行车性能,也提升了元戎系统的安全性能?
周光:是的,举个例子,ChatGPT 刚出来的时候,特别像第一代端到端技术的表现。跟它聊天,感觉它像人但又经常胡说八道,虽然大家会被它像人的感觉shock到,但也会在意它的幻觉问题。而现在的 ChatGPT,胡说八道的概率大大降低。大模型在辅助驾驶领域也会经历类似的发展过程。随着大模型技术的不断优化,它在提升行车性能的同时,也会让系统的安全性能同比例提升。比如在应对复杂路况时,大模型可以更准确地判断和决策,避免事故发生,保障行车安全。
Q:光哥提出了 Road AGI 战略,在辅助驾驶快速发展阶段推进该战略,有什么考量?
周光:我们的目标是实现 L5 级自动驾驶,这是做智能驾驶技术和辅助驾驶的企业共同的愿望。实现 L5 级有不同的路径,之前很多人相信建图的方式,觉得建更多的图,覆盖所有城市就能实现,但在过去十年,这条路发展得并不顺利,规模很小。目前验证的是在一些极限载荷、特别窄的道路上还行,但全域覆盖很难。
另外,我们看到大模型的发展经历了弱专家系统、通才、强专家系统阶段。在 GPT 出来之前是弱专家系统阶段,GPT 出现后进入通才阶段,就像 AI 模型刷高考题,数理化都考,从专科水平一路提升到 985 高校水平。到了 985 水平后,又进入垂直场景的强专家系统阶段,现在有些领域做到了博士级水平,甚至还有计划冲击诺奖级水平,比如解决黎曼猜想。
智能驾驶技术的发展和大模型技术高度相似,我认为通才系统阶段是绕不开的。不是说要设计一套完全不同的模型,而是同一个模型应该具备多方面的能力,既能处理好一种任务,也能处理好其他任务。这是从弱专家到通才再到强专家的必经之路,这是基于技术的判断,并非商业选择。
我们希望打造一个为移动服务的基础模型。比如你给我一个地址,不管是虹桥机场还是虹桥某个小区的具体楼栋号,车仅靠AI 推理能力就能到达。先靠导航在路上行驶,到了小区门口,再通过大模型能力找路,找到楼、电梯,最后送到家门口。这种基础能力是未来具身智能必须具备的,就像机器人不能永远靠遥控器控制一样,汽车也需要具备自主行驶的能力。通过推进 Road AGI 战略,我们希望为实现L5级自动驾驶打下坚实基础。
杨立伟:光哥说得很对,现在的技术发展趋势确实如此。RoadAGI 战略为自动驾驶的发展提供了新的思路和方向,通过借鉴大模型的发展路径,有望突破现有的技术瓶颈,实现更高等级的智能驾驶。我们也会在合作中,为这一战略提供技术支持,共同推动行业发展。
Q:元戎似乎更注重挑战AI上限,而非追求极致低成本产品,光哥能分享下元戎 AI 战略吗?立伟老师从产业角度谈谈看法。
周光:我们并非不考虑降本,而是要在正确的技术道路上降本。比如在技术选择上,我们坚持 End To End(端到端)和大模型的技术路线,不会因为追求低成本就走回 Rule based(基于规则)或者加图的老路。
如果能通过端到端和大模型技术实现功能,那成本越低越好。最近我们推出了高通 8650 产品,这就是一款成本 Friendly(友好型)的产品,这个芯片是Qualify做Enterprise。但我们不会走向更低端的产品路线,因为从技术演进的角度来看,那样做没有意义,不符合技术发展的规律。我们更注重在先进技术的基础上,通过优化和创新来降低成本。
我们就是要在保障技术先进性的前提下,通过合理的方式降本。这样既能提升产品竞争力,又能推动行业技术进步,为消费者提供更好的产品和服务。
杨立伟:从产业角度来看,技术演进起着关键作用。以前做分段式的辅助驾驶,为了制定规则需要投入大量人力,像行业内最头部的几家企业,包括车企,都有几千人参与。但接触元戎后发现,他们真正的算法团队只有一百人左右,这和语言大模型的发展模式很相似。以前做推荐算法也需要很多人,但后来做语言大模型时发现,更重要的是人才质量和创新能力。给人才提供良好的环境和足够的算力,让他们进行创新,同时有顶尖人才进行基础模型的研究,上层再进行工程化优化。
辅助驾驶发展到 VLA(Vehicle Language AI,车辆语言人工智能)阶段,开始比拼技术人才的质量,而不是数量。虽然对算力的需求增大,会导致成本上升,但从长期来看,辅助驾驶从推理到后训练,成本会先上升到一个高峰期,之后随着技术发展还会下降。随着辅助驾驶的普及,越来越多的车会分担软件、硬件和云端算力的成本,成本看起来很快就会下降。元戎做高端车或高端车型,把人力成本、算力成本分摊后,终端成本也能够降下来。所以,从产业发展的角度看,元戎的战略是符合技术发展趋势和成本控制需求的。
Q:元戎全力投入 VLA 赛道,而特斯拉似乎不提 VLA,元戎这么做的意义是什么?
周光:特斯拉虽然嘴上不说 AI,但实际上从 V12 - V13 版本的进展就能看出,他们应用了大模型技术。现在整个 AI 生态,中国越来越开源,美国越来越闭源。特斯拉 V12 - V13 版本在安全性上有很大提升,一定程度上解决了幻觉问题。大模型发展过程中,一直在解决幻觉问题。
元戎可能是在车领域最早提出 VLA 的,但实际上 VLA 概念是谷歌提出的。谷歌在 AI 领域贡献巨大,像 Transformer 就是他们的成果,谷歌旗下的 Deepmind 也是人才济济。随着技术的发展,VLA 的应用会越来越广泛,我们全力投入这个赛道,就是为了在技术上保持领先,为辅助驾驶的发展探索新的方向。VLA 可以让汽车更好地理解人类语言,实现更自然的交互,提升驾驶体验和安全性。
杨立伟:辅助驾驶此前缺乏语言模型,但现在语言模型发展成熟,并且和强化学习结合得越来越紧密。语言大模型火起来后,全球很多优秀人才都投身到这个领域。以前辅助驾驶技术火的时候,大家没太关注大模型,因为当时觉得辅助驾驶场景小,资金和人才都集中在语言模型研究上。现在辅助驾驶技术可以借助语言模型的发展快速前进,而且效果很好。辅助驾驶和未来的机器人都需要与人交互,如果机器不能理解人的意思,就很难实现高效交互。而语言模型是实现人机交互的最佳方式,所以从这个逻辑来看,VLA 是确定的发展趋势。元戎投入 VLA 赛道,就是顺应了这一趋势,有望在未来的辅助驾驶市场占据优势。
周光:就像身边有个人,如果他不说话,只是做事,你会觉得害怕、不可预测。但如果他经常跟你交流,你就会觉得他的行为是可预测的。在辅助驾驶中,语言就起到这样的作用,它能让用户更好地理解系统的行为,增强安全感。所以 VLA 对提升用户体验和安全感非常重要,这也是我们投入这个赛道的重要原因。
Q:VLA 在数据训练和用户体验上与传统技术有何差异?
周光:VLA 能解决很多人担心的可解释性问题。在没有语言之前,整个神经网络的决策过程很难解释,大家觉得写代码好,因为代码有 If else 语句,可以去查看和解释。但实际上,现实世界很复杂,很多情况无法用简单的代码条件来涵盖。如果模型具备语言能力,就能用语言向人解释它的行为,这会让人更有安全感。比如打车的时候,司机提前跟你说为什么要这样行驶,你就不会因为无法理解他的行为而感到不安。
在智能驾驶领域,安全是第一位的,近期发生的一些事故也让大家更加重视安全问题。如果在技术发展过程中不重视安全,盲目追求数量和规模,那是很不负责任的行为。VLA 通过提升可解释性,能让用户更放心地使用智能驾驶系统,这是它与传统技术的重要差异之一。
杨立伟:在数据训练方面,VLA 和传统技术也有很大不同。传统技术可能更依赖特定的数据集和规则,而 VLA 可以利用大规模的语言数据进行训练,学习到更丰富的知识和模式。在用户体验上,VLA 不仅能让系统更智能地驾驶,还能像一个贴心的伙伴一样和用户交流,提供更多个性化的服务,这是传统技术很难做到的。所以,VLA 在数据训练和用户体验上都具有明显的优势,将为智能驾驶带来新的变革。
Q:安全对用户来说是信任和对系统交互的理解,如果系统在交互上让用户更安心,比如提醒前方路段信息,是否能增加用户信任和安全感?
杨立伟:可预期性在安全方面非常重要,而语言能带来可预期性。就像在现实生活中,如果一个人做事前都跟你说一声,你对他的行为就有了预期,感觉会完全不同。在智能驾驶系统中也是如此,即便系统性能相同,一个会 “说话”,能提前告知用户操作和路况信息的系统,一定会给用户更强的安全感。比如车辆在变道、减速等操作前,提前通过语音或其他方式提醒用户,用户就能更好地理解系统的行为,从而增加对系统的信任。
周光:泊车显示就是一个很好的例子。在辅助驾驶过程中,泊车时如果能让用户清楚地看到车辆周围的环境和操作过程,用户就会更放心。好的交互设计非常关键,即使技术水平相当,交互体验的好坏也会对用户感受产生很大影响。通过优化交互设计,让系统与用户更好地沟通,可以有效提升用户对智能驾驶系统的接受度和信任度。
而且这种交互不仅是面向车内用户,还可以面向周围的车辆和行人。比如在一些特定场景下,车辆通过灯光或其他方式告知周围环境自己的意图,像 “我正在自助泊车”,这样能让周围的人和车更好地理解车辆行为,提高整体的安全性和交通效率。
Q:VLA 如何提升实际行车安全?现在大语言模型错误输出越来越少,不过汽车领域容错率低,如何应对出错风险?
杨立伟:目前的智能驾驶技术还没有达到 L5 级,大多是组合辅助驾驶,所以在宣传和使用时不要过度夸大。解决大语言模型的幻觉问题对提升安全性有很大帮助,但要完全保障安全,还需要技术的进一步发展。
我们认为 RoadAGI 这条路是通向 L5 级的可行方向,而不是一味地依赖加图的方式。在大模型技术应用于辅助驾驶的过程中,大家还是要保持敬畏之心。虽然现在大模型的幻觉情况比以前少很多,比如以前生成的网站链接打不开,现在基本能打开,也不会随意编造无法查证的法律案件,但仍然不能掉以轻心。
周光:大模型在辅助驾驶中的应用确实提升了很多方面的性能,但安全始终是重中之重。我们在研发过程中,要不断优化算法,提高模型的准确性和可靠性,降低幻觉出现的概率。同时,还需要建立多重安全保障机制,即使模型出现一些小的失误,也不会导致严重的安全事故,确保用户的生命财产安全。
Q:元戎去今年首次参加上海车展,在竞争激烈的智能驾驶领域,参展有什么意义?有没有吸引客户的规划?
周光:2023年我们进行了大规模试车,并首次发布无图技术,中国第一个无图是元戎Release。当时行业内普遍认为辅助驾驶离不开高精度地图(HD MAP),但我们用实际成果证明了无图技术的可行性。
我记得在 GTC 的时候,有个头部新势力的负责人跟我说,他们一开始根本不相信我们的无图技术,觉得是假的。但现在,无图技术已经成为行业标准答案,没有人会再走回依赖高精度地图的老路。
去年北京车展,我们展示了端到端技术的演进和模块化,在行业内起到了技术引领的作用。对于 VLA 技术,我相信明年它很可能会成为行业共识,虽然现在还不是。但技术迭代速度很快,就像大模型的发展一样,辅助驾驶技术也在快速进步,不过在这个过程中,安全始终是核心,AI safety(人工智能安全)至关重要。比如做一个大模型可能只需要两个人,但做 AI safety 可能一百个人都不够。
参加车展,就是要向行业展示我们的技术成果,引领技术发展方向,同时也希望吸引更多志同道合的客户和合作伙伴,共同推动智能驾驶行业的发展。目前,已经有不少客户对我们的技术表示了浓厚兴趣,后续我们也会进一步沟通合作事宜。
Q:VLA 被认为是下一个竞争方向,如何分辨 VLA 的优劣?VLA 的用户价值和门槛是什么?
周光:想想无图技术刚出现的时候,市场上出现了很多打补丁的情况。有些看似采用了无图技术,但实际上每个路口都有补丁,甚至表面上是无图感知,实际跑的还是高精度地图(HD)的逻辑,一旦离开特定区域就无法正常工作。我觉得未来 VLA 领域也一定会存在类似水分很大的情况。
在智能驾驶领域,安全是绝对不能忽视的关键因素,任何夸大或者虚假宣传都是不可取的。安全是智能驾驶的首要准则,一个不安全的系统如果追求规模应用,那将是非常危险的事情。所以在评估 VLA 优劣时,首先要关注其安全性,包括模型的准确性、可靠性以及应对各种复杂场景的能力。
其次,要看 VLA 技术能否真正提升驾驶体验,比如是否能实现更自然流畅的人机交互、更精准的路径规划等。VLA 的用户价值在于让驾驶变得更轻松、更安全、更智能,例如帮助驾驶员更好地应对复杂路况、提供个性化的驾驶建议等。
而 VLA 的门槛,从技术层面来说,需要具备强大的语言理解和生成能力、高效的算法架构以及大量高质量的数据支持;从安全层面来说,必须建立完善的安全验证和保障体系,确保在各种情况下都能保障用户的安全。
Q:辅助驾驶端到端落地后,对数据无论是数量还是质量的要求都明显增加,您认为什么是高质量的数据?怎样收集数据才合理?从 AGI 逻辑看,智能驾驶公司是否都要做具身智能?特斯拉做具身智能有明显收益吗?数据量级真的那么重要吗?元戎是如何做的?
周光:AI 发展经历了不同阶段,在Image net时代,主要是固定数据集,换模型就能有不同效果。但现在情况变了,在模型规模不大的情况下,数据集的作用凸显出来,不过现在也很少有人去专门做数据集的研究了。像 OpenAI、Sora、LLM 发布,DeepSeek 等,大家都在发布模型,却没人发布数据集,因为这是各公司的核心竞争力,都有自己的一套数据策略。
在我看来,高质量的数据首先要具有多样性,涵盖各种不同的驾驶场景,包括不同的天气、路况、时间段等,这样训练出来的模型才能更好地应对复杂多变的现实环境。其次,数据的准确性也很关键,标注要精确,否则会误导模型训练。
关于收集数据的方式,不能一概而论,不同的公司根据自身的技术路线和发展阶段会有不同的选择。组建车队收集数据可以获取大量真实的驾驶数据,但成本较高;利用云端模拟生成数据可以快速扩充数据量,但可能与真实场景存在一定差异。所以合理的方式可能是将多种方法结合起来。
从 AGI(通用人工智能)逻辑来看,智能驾驶公司不一定都要做具身智能,这取决于公司的技术理念和战略规划。大模型的发展先经历通才阶段再到强专家阶段,智能驾驶技术可以借鉴这一发展路径,但每个公司的侧重点不同。有些公司可能更专注于驾驶技术本身的提升,有些则会探索与具身智能的结合。特斯拉做具身智能有自己的考量,他们在辅助驾驶领域积累的技术和数据,或许能为具身智能的发展提供一定优势,但具体收益还需要时间来验证,因为具身智能目前还处于发展阶段。
数据量级确实很重要,一定规模的数据是训练出优秀模型的基础。但数据质量同样不可忽视,高质量的数据可以提高训练效率,让模型更快收敛,提升模型性能。元戎在数据方面,一方面注重收集真实场景下的数据,通过实际的路测获取大量一手资料;另一方面,我们也会利用强化学习等技术对现有数据进行深度挖掘和利用,充分发挥每一份数据的价值,而不是单纯追求数据量的大小。
在数据处理上,我们要找到数据量级和质量之间的平衡,同时结合先进的算法和算力,才能更好地推动智能驾驶技术的发展
杨立伟:大语言模型发展过程中,数据质量的重要性日益凸显。以前大家比拼模型参数,2023 年都在比谁的参数更大,比如 200B、300B 。但现在很多发布会很少有人再强调模型参数,而是更关注如何利用高质量的数据集,缩小模型规模的同时提升模型效果。通过更好地挖掘数据,激活更高的比例,即便模型参数变小,实验效果却能超越上一代模型。
这说明数据质量的提升,比单纯追求技术本身的提升更有效,关键在于工程上对数据的挖掘做得更好。在辅助驾驶走向大模型阶段的过程中,数据、算力、模型和推理都非常重要,虽然没有一个固定的标准,但这是明显的发展趋势。如果算力只有100T,想要实现像 Pure chatgpt 那样的效果是远远不够的。元戎在数据量不是最大的情况下,通过强化学习深度挖掘数据,取得了不错的成果,这也证明了数据挖掘和合理利用的重要性。
Q:如何看待 L3 级智能驾驶?
周光:L3 级智能驾驶指的是一个系统的下限标准,它主要考虑的是安全问题,而不怎么关注系统是否聪明、拟人化。但对于用户来说,大家希望使用的系统既聪明又安全。L3 级智能驾驶在接管方面有多种情况,一种是因为系统不够聪明,让人无法忍受而接管;另一种是出于安全考虑的接管。只追求安全而不考虑其他因素是不行的,比如一个 L3 级系统,用户想在途中休息一小时,但车只开了 50 米就卡住了,无法到家,这样的系统用户肯定不想用。
所以在实际应用中,要在安全性和智能性之间找到一个平衡点。不能一味地追求绝对安全而让系统变得过于保守,也不能只注重智能性而忽视安全。要综合考虑各种因素,不断优化系统,让 L3 级智能驾驶真正为用户带来便利和安全。