新华社北京9月15日电 9月15日,《新华每日电讯》发表题为《模型:变形的拉链,能测出机器人的“智商”——自变量王潜:改造“精密的废物”,须从“头”开始》的报道。
自变量机器人创始人兼首席执行官王潜。受访者供图
2025世界机器人大会上,自变量机器人公司的轮式双臂机器人“小量”用一双巧手灵活制作香囊,“量子2号”仿人形机器人以7自由度手臂设计实现捏薯片不碎、360°清洁等高难度操作。支撑其复杂灵巧操作的是自变量自研的机器人“大脑”——通用具身大模型WALL-A。“一脑多用”的端到端技术,使机器人实现零样本泛化能力。
什么样的机器人,才不被称作“精密的废物”?
蹒跚学步至今,人形机器人正在取得肉眼可见的进步。然而,真正制约它走进工厂、融入家庭的并非四肢,而是能深刻理解物理世界、自主决策的“更强大脑”。没有大脑驱动的机器人,就好比失去灵魂的一块铁木,只能演示、无法实干。
超越“花拳绣腿”,机器人的再进化也许真的要从“头”开始。
记者:过去一年,人形机器人有了怎样的进化?
王潜:去年夏天,还有很多人形机器人“动弹不了”,到今年,多款机器人已能走路、跑步乃至打拳、踢球,并逐步开始像人一样在广泛、复杂、真实的世界中自主移动、感知、理解、决策并灵巧地操作物体,以完成多样化的任务。驱动这些进化的,是算法的进一步成熟和收敛。
记者:机器人的大脑虽然一直在进化,但技术路线还未“大一统”——有的用的是专用模型,有的用的是通用模型;有的采用分层模型,有的用上了端到端模型。哪种模型将是机器人大脑的“终局”?
王潜:提到大模型,普遍认知中的还是大语言模型、多模态模型,或者视觉语言大模型(VLM)+动作模块。还有一种误解,认为具身智能的基础模型是这些模型的延伸。
事实上,这些模型都属于虚拟世界的基础模型,并不是真正作用于物理世界的基础模型。由于机器人涉及真实世界极为复杂的物理交互,处理的问题与虚拟的数字世界所要解决的问题截然不同,所以机器人真正需要的是物理世界中一个全新的基础模型。
如果对物理世界的某个局部做一个三维重建,看上去或许已达到1:1复刻,但只要有一点点小毛刺那样的瑕疵,在现实中都会造成操作上更大更棘手的问题,也就是说0.1%的谬误也可能会带来10%-20%的差池。
物理世界最核心的难点,是存在大量随机的不可预测事件。哪怕只是一个用手推门的动作,也会因手的接触点位置、接触时长、力的方向和大小、动摩擦因数等参数的差异,产生非常多的随机可能。
记者:可以说,现阶段机器人的泛化能力普遍还不强,比如刚在跑道上学习过跑步,换成草地就跑不起来了。而机器人能够进厂入户干活的前提是具备举一反三的能力,那么,如何能让机器人灵活应对复杂随机甚至是陌生的环境?
王潜:传统的解题思路类似于“搭积木”:视觉识别、推理规划、动作生成各用一个模型,然后层层叠起……看似功能齐全,但信息传递时就像一排人在玩“传话游戏”,不仅效率低下,而且前一层产生的微小差错容易在后续环节积累巨大误差,无法实现深层跨模态理解。
理想的“大脑”,比如人脑,能够让看见、思考、行动一气呵成。因此真正的具身智能模型,应当由一个模型覆盖从信号输入到动作输出的完整过程。处理长序列任务时,机器人无需划分从看到想再到动的界限,而通过一个统一的神经网络,边想边做,还能像人一样举一反三,遇到没见过的情境也能灵活应对。
自变量是用一个通用具身智能模型来解决物理世界的复杂问题。具体来说,是把世界模型和端到端的通用模型放进同一个模型,也就是把视觉、语言、触觉、动作等所有模态信息塞进一个架构里统一处理。这就区别于直接把自动驾驶的模型迁移过来,或给虚拟世界的视觉语言模型加上运动模块的方式。
记者:装上这样的大脑后,机器人能够解决哪些以分层模型或专用模型作为大脑的机器人解决不了的问题?
王潜:比如机器人要完成穿衣服这一指令,如果遇到衣服突然掉落、拉链变形这样的动态变化或陌生状况,传统分层模型需要重新编程,而自变量的端到端模型只需少量样本即可迁移学习。端到端模型能通过“实时感知决策闭环”马上调整策略,而分层系统容易因模块间延迟出现“手足无措”。
再比如,我们让装载端到端模型的机器人“小量”削苹果,它会去厨房岛台寻找水果刀,我们又告诉它这是一个有小孩的家庭,然后看到它从更高处的抽屉开始找起——它在行动前进行了逻辑推理:为防止水果刀被小孩翻到并使其受伤,水果刀会被放进更高的抽屉。
装上通用大脑的机器人,还能拾取地面上的废纸、饮料瓶、塑料袋等各种形状不规则的垃圾,把沙发上随意堆叠的多件衣物放进脏衣篓。
记者:区分一个机器人大脑的强弱,与评价一个人智商的方法和维度相似吗?
王潜:机器人大脑的强弱即模型的优劣,更出色的模型具备更强的泛化能力、推理能力,能处理更复杂的问题。就泛化能力来说,从易到难可分为光照位置的泛化、环境背景的泛化、操作对象的泛化、操作任务的泛化。就任务复杂度来说,又分为操作动作的复杂度、推理及状态估计的复杂度、被操作物体的复杂度等不同维度。
记者:训练一个这样的大脑,关键在于算法还是数据?
王潜:在大约10年前的AI1.0时代,大家认为做AI就是做算法。如今,决定性因素从算法变成了数据。具身智能发展到深水区,核心竞争力就在于数据。
从成本和效率的角度考虑,目前自变量是以真实数据为主、互联网数据为辅。自变量构建了全球最大的具身智能数据集,涵盖数万小时的机器人操作视频、触觉反馈、空间定位等多模态数据。为加快数据积累,自变量自研了物理准确性最高的视频生成大模型来做数据增强,通过切换背景、环境、接触物理过程等途径,将一条真实数据扩展为成百上千的数据,用来快速提升模型的泛化性。我认为数据质量的重要程度高于数据数量,而提升数据质量的一大途径在于扩大数据的多元性。
记者:机器人是软硬件结合的工程。现在是“强本体—弱大脑”的阶段,还是“强大脑—弱本体”的阶段?
王潜:具身智能是显著的“软件定义硬件”的领域,硬件需按照机器人大脑的进化去定义、去适配。
记者:有人调侃:除了跳舞、翻跟头,人形机器人还能干什么?在跑步、跳舞、踢球、格斗中习得的能力,与机器人实际落地所需的能力,有多大的匹配度?
王潜:匹配度不大。通用的机器人能力分为运动、导航、交互、操作四个维度,操作是关系到机器人进厂入户的最关键能力。这也是为什么自动驾驶的模型无法直接迁移到机器人身上,因为自动驾驶的能力难点集中在导航与运动上,而机器人的最大难点在于复杂操作。
但换个视角来看,人形机器人公司要发展,首先要活下来。如果机器人短期内还无法进化为实实在在的生产力,那么训练一些娱乐能力、体育能力,也能给用户提供情绪价值。