机器之心报道
编辑:冷猫
最近机器人和 AI 相关领域的读者或多或少都在关注 IROS。
IROS(IEEE/RSJ International Conference on Intelligent Robots and Systems)由日本机器人学会(RSJ)与 IEEE RAS 于 1988 年联合创办,会议聚焦智能机器人领域,内容更多以机器人为主。
今年的 IROS 是第二次进入中国内地,在杭州举行。
这次机器之心受邀参加了「2025 美团机器人研究院学术年会」,这次美团的学术年会作为 IROS 的分会场在杭州国际博览中心举办。我们走进了 IROS 会场,感受浓浓的学术氛围和讨论热情。
这次学术年会以「机致生活(Robotics for better life)」为主题,具身智能与零售服务的结合,是美团机器人最大的愿景和商业理念。
美团机器人研究院自 2022 年成立以来,致力于搭建连接产业与学术的开放科研平台,推动产学研用的合作发展。近一年来,美团在低空物流、具身智能等核心赛道上持续加码,推动前沿的学术探索高效转化为可落地的产业价值。
令我们印象深刻的是,美团无人机配送服务已经能够初具规模,并且已经开启全球化运营。另外,美团是全国唯一民航局批准在全国所有城市运营,甚至包括夜间飞行的无人飞行器
美团副总裁毛一年发表主题演讲
除去一些商业化的思想和成绩以外,我们自然更加关注各类学术成果的进展。
在这一次 IROS 会议中,美团机器人研究院共有 6 篇相关工作参会。据毛一年介绍,今年最具代表性的研究成果是「DINO-X:开放世界目标检测与理解的算法研究」,在无人机飞行、视觉语义识别,具身智能行为等实际应用场景中有非常高的实用价值。
作为一年一度的学术年会,美团邀请了学术界和产业界的多位明星人物,会场内可谓是大咖云集。
本次参会的重磅人物有:
美团副总裁、美团机器人研究院理事长毛一年、香港大学教授席宁、禾赛科技 CEO 李一帆、自变量机器人 CEO 王潜、宇树科技 CEO 王兴兴、清华大学助理教授许华哲、清华大学丁文伯教授、浙江大学许超教授、清华大学赵明国教授等等。
现场,美团副总裁毛一年、香港大学教授席宁、禾赛科技创始人李一帆、自变量机器人 CEO 王潜都发表了主题演讲,展示了各自对于人工智能时代下的具身智能发展的见解和碰撞。
我们在现场完整听完演讲后发现,不论是学术界大咖还是产业界的领军人物,对于具身智能和人工智能在不久将来的发展方向的观点有着惊人的相似点
香港大学教授席宁:物理与数据的对抗协作
重点放在最前面。
席宁教授认为目前的研究核心就在于:「怎么从传统的机器人规划范式中脱离出来,更有效地利用人工智能的方法。」
众所周知,让机器人做一件事需要解决四个问题:任务规划,轨迹 / 路径规划,感知测量与反馈控制。
轨迹规划
在轨迹规划这一块,传统的方法是以物理知识驱动的,根据物理定律来决定一些轨迹的形成。在进入人工智能时代后,机器学习模型更加高效,数据驱动的大模型能够具备很强的任务处理能力。
但问题是数据驱动的模型无法遵从工程领域的物理特性,也不具备可解释性。于是,将物理世界的规律与数据驱动的大模型相结合成为了一个很好的研究方向。
席教授提出了GAT(Generative Adversarial Tri-model)模型,动机是解决纯机器学习模型无法遵循工程领域基本物理支配定律的问题。
简单来说,GAT 模型就是让物理和数据两个模型互相学习,最后收敛到一个规划。但与 GAN 的对抗模型不同,GAN 是对抗博弈,GAT 是合作博弈。
席教授举了一个弯曲移动电缆线束的例子,物理模型中包含了线缆的物理性质,数据驱动的神经网络模型能够进行任务规划,两个模型进行博弈后实现机械臂的规划控制,不仅实现了非常好的模型转移性,同样也具备物理的可解释性。
关于 GAT 模型,请参阅论文:
论文标题:Machine learning based on a generative adversarial tri-model论文链接:https://www.nature.com/articles/s41598-025-05320-6
感知与测量
在人工智能时代里,大模型已经具备了一定程度的智能,能够辅助机器人的任务规划。但大模型能够告诉机器人先后动作,但无法告诉机器人「门」在哪里。
因此,具身智能对空间关系、时序关系或是交互关系,都需要进行感知。
从自然界开始,自然界的生物感知信息的进化,是从点的测量到集合(成像)的测量。
现有的感知和测量数据,各类模态的数据最终都是回到向量空间进行处理,通过不同模态下的向量差作为损失对机器人进行控制。
对于越来越多,越来越复杂的感知信息,传统的向量数据已经不够高效了,我们亟需改变数据模式,用更利于感知的数学方法来描述感知过程,通过信息压缩得到核心的感知信息,并直接通过感知信息实现控制。
因此,席教授提出了非向量空间模型(Non-Vector Space Models),控制原理同样简单,通过模型集合差以代替向量差进行控制。
这一切的核心就是新的压缩感知的过程。席教授以追踪线缆位置的任务举例,做传统图像特征提取的情况下,如果线缆换成不同的方向就会导致特征变化,采用压缩感知就能避免特征变化导致的跟踪失败。
机器人控制
机器人的轨迹是一个时间函数。席教授认为这不是一个合理现象。
「我们为什么要依据地球围着太阳转的规律来控制机器人?」
在轨迹和动作规划上,人是怎么做的?
人的动作是以感知为基础的参照系,通过感知决定动作。席教授认为,感知作为参考(Perceptive Reference)是具身智能的基础。
最后举个例子,机器人的路径如果按时间为参照,遇到障碍物时就需要重新进行规划;如果采用传感器为参照系,以传感器感知的信息来规划轨迹,各类情况都已经在任务规划中包含,就无需重规划操作。
自变量 CEO 王潜:大一统的基础模型什么样
重点放在最前面。
很多人认为具身智能是「把 DeepSeek 塞到宇树里面去」,但王潜认为:「具身智能是基础模型。」
具身智能和现有的大模型完全不同,具身智能涉及到物理世界的交互。
物理世界的随机性非常的大。物理过程很难被其他模态准确描述。
目前的研究情况下,Locomotion 和 Navigation 都已经基本能够收敛,而 Manipulation 则刚起步,严重受制于随机性的物理世界。物理世界中各种物体的先验,分布都差异非常大,会遇到传统的虚拟世界模型不会碰到的问题。
例如,虚拟世界中识别到的水瓶,在物理世界中可能存在瓶盖盖不紧这类很难识别的情况,会导致相同的交互取得一个漏水一个不漏水的大相径庭的结果。
基础模型的特征
王潜认为,具身智能模型首先是端到端的。
物理接触的复杂性决定了端到端的必要性,断绝了分层模型的可能性。具身智能远远不等于「LLM + 动作生成」的范式。
其次,具身智能模型必须是通才模型
虽说专用模型能够实现某个任务下很好的能力,但只有通才模型才可以学到不同任务之间的共同结构(Common Structure),这种现象有点类似大模型的「涌现」现象,在一定规模的学习后能够迁移到更多任务上。
最后,基础模型一定基于物理世界。物理智能不可能涌现自虚拟世界。
具身智能的最终方法论:物理世界的通用统一模型。
而目前具身智能的研究热门 VLA 模型正是通往通义具身智能大模型的一条过渡的路径。
数据,还是数据
我们从大模型里学到了什么?
Scaling Law 告诉我们,我们需要更多的算力,更多的数据。
大模型时代的范式转移:大模型逐渐从算法驱动转变为数据驱动的现实困境,我们在数据上能进行的工作远远大于在模型本身上能做的事情。
在现有人类互联网数据已经接近干涸的时候,要想构建一个更好的模型,数据质量和多样性比数据数量更重要。王潜认为,更高的数据质量和多样性能够带来很多数量级的效率差。
在具身智能领域,模仿学习已经逼近了人类数据量的极限。在未来,只有体验学习才能够突破数据瓶颈,这也是 Richard Sutton 的观点。
圆桌:一些庞大的话题
在会议最后的圆桌环节,丁文伯、王兴兴、许超、许华哲和赵明国,以探究具身智能发展的「第一性原理」为主题,进行了一些有关未来的对话。
圆桌探讨具身智能发展的「第一性原理」
王兴兴:在硬件领域,商品成本最终跟重量相关,这是很直观的第一性原理。但在软件和 AI 领域上有些模糊,关于「什么是智能」的问题还不够透彻,需要像牛顿定律一样再总结提炼。
许超:具身智能是「躯体和灵魂」的合二为一。未来的模式是「牛顿 + 辛顿」,牛顿和辛顿「握手」,是未来的一种新架构。 躯体和灵魂结合,既能够保留物理规律,又能够结合神经网络的数据驱动学习能力。具身智能要具备小脑,中脑,大脑以及云脑。
许华哲:首先,智能是由欲望驱动的,人类的智能源于生存和探索的欲望。具身智能要「给机器人自己的欲望」。
第二是先验,「为什么马一生下来几分钟就会走路,而我们训练机器狗需要几十年的(并行)时间?」生物 DNA 天然携带一些先验,在如何将先验移植到神经网络是很重要的一部分。
第三是经验,经验是完成这个世界的闭环。用自己的行为产生的数据才能完成小众且必须完成的事情。
赵明国:第一性原理一定是一个偏简单的词
第一,不能说具身智能是大模型做的,否则一切都是大模型的子课题,还需要再定义。第二,凡事都用智能的方面考虑问题。具身智能有三个模块组成:外部物理世界变为信息源(传感),信息处理与推理,输出变为物理世界的能量。最后这三者的信息和能量需要流动,这是系统真正的生命力。
总结
虽说受限于篇幅,我们很难把整场会议的完整内容都进行覆盖。但是我们对于这次美团机器人研究院学术年会中,学术界和产业界,关于具身智能领域的研究观点做了一个整理。
如果仔细研究这些偏向学术的观点就会发现,不论是学界还是业界,在具身智能的研究发展领域的观点惊人的统一。
大家都认同「物理世界的复杂性」,都提及了「物理与数据的结合」,都提出了「构建具身智能模型」的思考。
「大模型 + 自动化 = 具身智能」的认知早就过时了,我想我们应该期待真正的具身智能模型的到来。
最后以圆桌论坛每位嘉宾的寄语作为结尾:
王兴兴:大脑里有梦想就可以实现。
许超:追寻好奇心,不要死卷分数。
许华哲:循此苦旅,以抵繁星。
赵明国:油门踩到底,加速进化。