当前位置: 首页 » 资讯 » 新科技 » 正文

世界机器人大会上什么都有,就是没什么共识

IP属地 中国·北京 编辑:周伟 硅星人 时间:2025-08-10 16:16:00

作者:黄小艺、Yoky

编辑:王兆洋

没有Benchmark的机器人领域,正在产生大量的“非共识”。

去年的WRC(世界机器人大会),各家比拼的还是谁能更快地让机器人走起来,到今年连续3天都爆火的展区内,硬件本体开始分化出不同的产品形态服务不同场景,以吸引落地和量产的可能,软件算法则在VLA、端到端模型、仿真数据训练等方面衍生出了多条技术路线。

由于没有统一的标准,各家的尝试可以说是天马行空,甚至彼此相互不兼容,在核心路线上分道扬镳。

这是一件很有意思,且极为重要的事。在任何一个新兴行业的初期,非共识才是推动技术探索、寻找到唯一真理的引擎。这是一个创新曲线的必经阶段:在最初的模仿和复现后,必然会经历一个剧烈的发散期,然后缓慢收敛,再发散,再收敛,循环往复。真正的答案,正是在这一次次的发散和碰撞中被淬炼出来的。

我们和一些关键公司聊了聊,也盘点了一些公开的“喊话”,梳理出了几个重要的充满密集争论的领域,这些正在激烈碰撞的“非共识”,或许正是下一个影响机器人领域的关键问题。

1

一、是算法不行,还是数据不够?

8月9日,宇树科技王兴兴在接受采访时,提到了“相比于把精力都投入到采集数据上,基础模型的优化是更应该关注的问题”。作为2025年最为明星的本体制造厂商,王兴兴的发言迅速引起了行业的讨论,到底是算法不行,还是数据不够?

1、宇树科技:比起普遍受关注的数据,最大的问题是模型问题

王兴兴(宇树科技创始人):目前机器人行业对数据关注太多,对模型关注太少。现在最大的问题是模型问题:当前的机器人模型架构不够好、也不够统一;即使有了大量高质量的数据,训练出来的模型依旧无法真正落地。机器人领域并不像大语言模型那样纯靠数据驱动:数据再多,部署到实物机器人上时偏差仍然非常大。

2、星海图:数据决定了能不能上90分,模型决定了90到95分。

许华哲(星海图联合创始人):当前阶段,模型不够用的主要原因,是因为数据不够。大语言模型证明了模型架构的差异,更多是决定能力从90分到95分的区别。但是,没有数据,模型能力永远无法从59分突破到90分。数据决定了能力的下限和基础,是帮你完成这个关键跨越的核心。

3、加速进化:硬件ready以后,才能死磕具身大模型

赵维晨(加速进化副总裁):大脑的算法可能是用简单的传统一点的算法,或者分层的大脑模型,保证先在一些场景落地来获得数据。我认为VLA一定不是最终解,这还是基于Transformer的大语言模型那一套。具身模型是基于多模态的多维物理世界,一定会有原生的模型架构。

1

二、真实数据不够,仿真数据能不能凑?

目前,行业普遍面临的情况是,真实物理世界的数据稀缺、自采成本高、供应商又不够健全,有一部分模型厂商选择了视频数据或者仿真数据进行训练,比如银河通用大量采用仿真数据进行训练;也有一部分厂商坚持真实数据,表示仿真数据起到的作用并不大。仿真数据到底能不能凑?

1、银河通用:合成数据占99%,不会的人用不好合成数据

王鹤(银河通用创始人):长期看,真实数据固然重要,但在具身智能发展的初期阶段,合成数据是推动产业发展的关键数据资产,占训练数据的绝大部分(99%以上),而真实数据则用于补充和完成“最后一公里”的训练。不会的人用不好合成数据,所以有人会说什么仿真“有毒”。 做好合成数据,需要厂商有比较好的图形学、物理仿真、物理渲染和自动动作合成管线,包括验证闭环的一系列全套的基建,需要长期的积累和核心技术know-how。

2、自变量:手部复杂操作无法通过仿真数据来进化

王潜(自变量创始人兼CEO):我们在这个方面探索了十几年,基本结论是,手部复杂操作无法通过仿真数据来进化。不过,导航、走路、高级任务推理和规划更适合用仿真数据,很多团队的机器人走路都是在虚拟世界中训练出来,然后迁移到真实世界中。此外,手部pick and place这样的操作用仿真数据训练也是完全没问题的。当然我们也在广泛使用互联网视频数据进行预训练,但最核心的是现实生活中收集到的真实数据,包括机器人和人工采集的数据。

3、智源研究院:走大模型路线,更多依靠互联网数据

王仲远(智源研究院院长):智源走的是大模型的路线,更多依靠的是互联网数据帮助机器人学习智能。例如,今年春节,我观察一个小女孩是怎么学习的,她刷了很多短视频,就学会了一系列复杂的操作,再通过实践试错纠正,这是强化学习的本质。学习海量已有的数据,再通过强化学习和少量真实世界的数据不断训练它的能力,不断突破具身智能的发展上限,这和大模型发展路线不谋而合,基础能力到一定程度后通过强化学习进一步激发它的智能。

1

三、数据飞轮的起点:一万小时是门槛还是幻想?

另一个重要的问题是需要多少数据、如何获取高质量数据,具体的做法也观点不一,且普遍存在焦虑。有人乐观的认为只要给到机器人有效、高质量的一万小时数据,机器人就能实现能力的涌现,因此通过自采等方式构建数据集;但也有人认为数据迁移能力太差、类型太过单一,就算100w小时,也不会有更好的结果。

1、维他动力:决定涌现的关键是数据的多样性,而不是数量。

大模型之所以能取得突破,是因为它吸收了全互联网的数据,并且不分语言种类,包括图片、视频、音频等。这种海量、多样的数据,他们聚集为一体的时候,就产生了“智能涌现”的现象。 我们的看法是,必须让机器人在物理世界中探索,才能获得足够多样且持续的场景数据这其中最重要的两个场景就是户外和家庭环境。户外的核心能力在于机器人的移动能力,室内的核心能力在于机器人的操作能力。所以我们首款机器人会选择四足构型,让用户可以带到室外,去采集高质量、多场景的数据。

2、星海图:高质量的一万小时是数据飞轮的起点,但现在所有公司加一起也没有。

许华哲:我认同这个一万小时这个说法。数据飞轮的启动,正是在“千小时”到“万小时”这个量级的跨越中发生的。但这里必须强调,这一万小时必须是高质量的数据。数据的“质”远比“量”更重要。如果数据是千篇一律的,同质性太高,那么它的价值就非常有限。高质量数据意味着它必须是多元的,能够体现柔性物体的操作、具备场景的泛化性。我们现有的1000小时数据,可能筛选后只有800小时是真正可用的。当然整个行业极度缺乏数据。把所有公司的数据加在一起“也没多少”。

3、加速进化:轮+双臂,操作100w个小时也是不可能的

赵维晨(加速进化副总裁):相比自动驾驶的单日上亿条数据,目前全国具身最大开源数据集规模才百万级别(不到10tb)。怎么可能轮加双臂,操作弄个 10 万小时,100w小时就能训练出一个多模态的具身大脑,这是不可能的,最多只能验证早期大脑的算法和框架。 我们主要靠足球场景采集真实的物理数据,并结合视频合成数据,通过最新的模仿学习加强化学习实现视觉信号直接输入神经网络,驱动关节运动的“小脑下意识控制”,端到端的全身运动大模型。

1

四、端到端模型、VLA+VLM、世界模型...谁才是构建机器人“大脑”的最终路径?

我们在WRC现场发现,今年已经开始出现概念被滥用的现象,包括何为“端到端”模型,也有一些厂商将训练后的小模型也宣称是VLA模型,当然从外部执行层面很难分辨真伪,实现方式和理念大相径庭。如何构建机器人的“大脑”成为当前最大的技术分歧点。

1、宇树科技:VLA+RL不是最佳路线,世界模型的收敛方向更快。

王兴兴:目前相对比较火的就是VLA模型,它是一个相对比较傻瓜式的一个架构。我个人对VLA模型还是抱一个比较怀疑的态度。个人感觉就是在未来2到5年,其实最大的肯定还是一个端到端的具身智能AI模型。这个其实是大家可以多关注,以及多推动的一件事,我觉得这是最重要的一件事。

2、星海图:分层系统是通往完全端到端的必经之路。

许华哲:我们现阶段采用的是一个分层系统,上层是负责高阶任务拆解的VLM,下层是负责执行具体动作的VLA。VLM将一个抽象指令(如“铺床”)拆解成具体的子任务(如“拉左边被角”),然后交由VLA来理解和执行。这种双系统的优势在于效率更高,并且对复杂场景的推理能力更强。但分层与端到端最终是异曲同工的。行业的终极形态应该是一个统一的端到端模型,但其内部会自然形成功能上的分化,我们现在的分层系统,是通往最终统一模型的必经之路。

3、自变量:做完整端到端的统一大模型。

王昊:我们公司的大模型技术路线是统一端到端的架构,第一是追求性能:任何人为的模块划分,其实都是对信息的一种有损的压缩,只有端到端的模型,才能在整体感知、决策、控制链条上,完成统一的处理,突破现有机器人系统性能的上限;第二是去拥抱scaling law,只要模型的架构是统一并且可扩展的,那么它的能力、智能水平,就会随着模型的参数和训练的数据量呈指数级的增长;第三只有端的端其实才能通向真正的通用性,不管是分层还是所谓的融合系统,通用性都会被最弱的模块所限制,而一个端到端模型。它学习的是关于物理世界以及交互的第一性原理,这种知识是普世的,所以天然就具备了模型能够向新任务、新场景、新的意念形态去泛化的一种潜力,超越了其他所有的期待的可能的技术方案。

4、越疆机器人:相比于做大脑,更重要的是操作系统

越疆不只在造机器人,更构建起一个具身智能的未来操作系统,让每个开发者训练专属智能体。这一平台的核心在于能够把协作机械臂、轮式机器人、人形及多足机器人联动起来,实现“一套系统,多形态操控”,形成海量数据湖。

1

五、软件定义硬件,还是硬件定义软件?

我们发现,行业普遍陷入一种矛盾状态:算法开发者抱怨硬件性能和一致性不足,由于上一代机器人并不是服务于AI而产生的,大量软件算法厂商正在创造新一代的本体;而硬件厂商则认为现有AI模型不够智能。这场争论的核心是:技术突破应由硬件引领,还是由软件定义?

1、星海图:根据模型的特性,去考虑硬件资源的投入方向

许华哲:硬件的形态、精度、配重等具体指标,都应该根据AI模型的能力来进行针对性优化。举一个典型的例子:传统的机械臂追求极高的硬件精度,但如果AI模型本身就能适应和纠正一定的偏差,那么硬件上就没有必要投入过高的成本去实现极致的精度。核心是要根据模型的特性,来决定硬件资源应该投入在哪些关键点上,以及哪些方面可以由AI的能力来弥补,从而实现整体的最优性价比。

2、越疆机器人、加速进化:机器人可能会重演手机的发展路径

越疆机器人:人形机器人不会是一个产品,而是一个平台级生态系统。越疆的策略是“软硬一体、通用架构、场景优先”,即先夯实硬件基础(模组/控制器/执行器),同时对接主流AI“大脑”,并与真实场景客户共同打磨解决方案。我们认为人形机器人生态的演进路径,大概率会重演智能手机的生态发展:1)先由硬件厂商带动产业热度;2)再由“大脑”和“应用”主导行业分层;3)最终形成开放协同、模块互换的具身智能生态。

加速进化:现在硬件能构建壁垒,其实是代际壁垒,或者说门槛。比如新的关节我们研发出来,关节和齿轮之间背隙只有1公分,性价比又高,这个关节应用后我们就会定义成二代机。但长期来看硬件无法构成长期壁垒,可以参考手机。硬件以外,产品定义和设计是可以有更大壁垒,但还是不够。这些都是创业团队早期能构建的门槛,还达不到壁垒。

3、众擎机器人:软件、硬件不是单向关系,共同决定机器人的价值

硬件是机器人的物理载体,为软件运行提供基础支撑—从关节驱动、传感器配置到能源供给,硬件的结构设计与性能参数直接影响软件功能的实现边界。而软件则是机器人的 “智能内核”,通过算法优化、数据处理与指令输出,激活硬件潜能,赋予其感知、决策与执行能力。例如,拟人步态的流畅呈现,既需要高精度伺服电机等硬件提供动力与控制基础,也依赖运动控制算法等软件实现姿态调整与路径规划,二者缺一不可。

4、源络科技:不能照搬大模型的理念,现在要立刻能用,长期来看要通过与物理世界交互主动学习

连文昭(源络科技创始人):具身智能有两层含义,狭义的就是智能机器人,广义的是用具身来解决通用智能。我们主张「用具身实现智能」——机器人应通过与物理世界交互主动学习,而非靠语言模型的堆砌。

这要求你要务实也要有理想。在务实层面,它必须立刻能用、好用,我们不做实验室里的玩具。我们已经能在生命科学场景中,完成过去只有人类才能胜任的长序列、高精度操作。在理想层面,我们有自研的通用平台:机器人通过完成真实任务,收集高质量的多模态数据,反过来用于迭代高阶智能模型。

未来智能体不仅能通过图灵测试,也能通过生存测试,在物理世界中独立生存、工作、演化,这才是真正的通用人工智能。

1

六:开源到底“开”什么,为什么?

机器人行业陆续开始复现语言模型的开源生态路线,但在当下这个阶段,开源需要开什么,为了什么?构建生态还是商业闭环?

1、星海图:“假开源”比较多,数据集+模型才是真开源

许华哲:我认为,目前行业内由公司主导的开源存在很多问题。核心障碍主要有两点:

开源不彻底:很多公司只开源硬件,软件部分仅提供能让硬件跑起来的基础代码,而不开放核心的数据和模型。

开源不可用:即便开源了,很多时候也因为文档、代码或数据质量问题,导致其他人很难真正用起来。例如,科研领域的开源数据,也常常存在标注粗糙、错误多等问题。

真正的开源,应该是把我们自己内部使用的、经过验证的数据和模型权重开出去,让大家拿到手就能用,能在此基础上进行微调和二次开发。我们希望通过这种方式,与行业合力构建一个真正开放、繁荣的生态。

2、自变量:具身模型依赖于硬件,模型效果很难复现

王潜:大家只会做模型的开源,是不会做数据开源的。所以这肯定是个伪命题。模型的开源由于有跨本体泛化的问题,也是不太能大规模用起来的。

王昊(自变量CTO):当然更多是存在这种假开源或者不彻底的开源,典型的比如开源模型,但是不开源数据,模型效果很难复现。第二是开源数据,但是质量非常差,或者规模非常小,那这就是一种技术营销,或者是一种学术贡献,并不是真正意义上的生态共享。第三是因为具身模型是依赖于硬件的。即使模型开源,硬件系统完全闭源,而且是特定的硬件系统,其他的硬件公司可能也很难利用上这些模型。

标签: 数据 模型 机器人 硬件 开源 智能 软件 能力 问题 世界 物理 算法 核心 场景 基础 路线 高质量 小时 行业 架构 系统 路径 语言 生态 关节 越疆 厂商 领域 创始人 公司 视频 无法

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。