当前位置: 首页 » 资讯 » 新科技 » 正文

摆脱遥控器,波士顿动力人形机器人,开始「长脑子」干活了

IP属地 中国·北京 编辑:顾青青 机器之心Pro 时间:2025-08-22 00:18:32



机器之心报道

编辑:冷猫、+0

刚刚结束的世界人形机器人运动会上,虽说各家机器人是各显神通吧,但也闹出了不少好玩的小插曲。

尤其是宇树科技 H1 机器人「肇事逃逸」事件。(机器人也会「摸鱼」了?宇树 G1 赛后葛优瘫刷美女视频,网友:比人还懂享受生活)

这也引发了网友的一些讨论和争议,需要人工遥控的人形机器人或许真的不是我们想要的。

宇树科技王兴兴明确表示「下次比赛我们肯定是全自主的,这并没有难度」。

而在全面自主决策自主行动的通用机器人领域,老牌龙头波士顿动力仍抱有很大的野心。

他们认为:要让人形机器人真正实用,他们必须掌握一系列广泛而复杂的能力。这不仅包括灵巧地操作各种各样的物体(无论软硬、轻重、大小),也要求它们能够协调整个身体,在复杂环境中移动、避障,并在应对意外情况时保持平衡。要实现这一目标,最有效的路径是开发能够处理多样化任务的通用型 AI 机器人。

而这一次,波士顿动力与丰田研究院 (TRI)合作,为波士顿动力著名的 Atlas 机器人开发大型行为模型 (LBM),其核心是构建一种端到端的语言条件策略(由语言驱动的控制模型),使 Atlas 能够理解指令并自主完成持续时间长、步骤复杂的操作任务。

就在刚刚,研究团队发布了其最新的成果展示,人形机器人 Atlas 完全自主地执行收纳整理任务的视频,着实让人大吃一惊。



视频里展示了 Atlas 机器人完全自主的动作,未经过加速处理,直观的展现了几个亮点操作:



首先是机器人演示中最常见的场景,人类给机器人添乱。在研究人员用冰球棍扒拉箱子,盖上箱子盖的捣乱动作下,Atlas 能够自主决策打开箱子盖,并且挪动箱子的位置,和人类的动作决策很相似,甚至能看出一点无语。

值得注意的是,当它用右手抓起一把零件的时候掉落了一块,它能够立刻用左手去捡起来。



面对研究人员在箱子外丢下的零件,它能够移开箱子,捡起物品并继续完成任务。



在这个场景下,Atlas 可以识别手上的物体,将机器狗的腿部零件折叠放置在架子上。



同时也能识别面板零件,并下蹲拉开箱子收纳。

从机器人的动作中可以看出,其背后的 AI 控制模型能够充分利用人形形态的各种能力,包括行走、精确定位双脚、下蹲、转移质心以及避免自我碰撞等。研究发现,所有这些能力对于解决真实的移动操作任务都至关重要。

波士顿动力的技术主管 Lucas Manuelli 表示:「如果几年前有人给我看这样的演示,我一定会惊叹不已。但如今,算法、数据和硬件正逐渐汇聚在一起,让这些令人难以置信的事情真正成为可能。」



虽说大家想象中的无所不能的通用机器人仍然很遥远,但不得不说,这一步已经让未来离我们更近了一点。

网友们对波士顿动力这次的演示成果评价都挺高的:





也有网友开玩笑说,那根捣乱的冰球棍真的会惹毛了机器人们:



研究团队发布了一篇博客,详细介绍了该 LBM 的构建过程与细节。



博客地址:https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/?utm_source=linkedin&utm_medium=social

模型的构建流程

整个模型的构建遵循一个清晰、迭代的闭环流程:

1. 数据收集:通过在真实机器人硬件和仿真环境中进行遥控操作,收集具身行为数据。

2. 数据处理:处理、标注和筛选数据,以便我们可以轻松地将其整合到机器学习流水线中。

3. 模型训练:使用所有任务的全部数据来训练一个神经网络模型。

4. 评估迭代:通过一系列标准化任务来测试和评估模型的性能。评估结果将直接指导下一轮的数据收集和模型优化,形成一个持续改进的循环。





该模型能够将机器人传感器捕捉的图像、本体感觉(即机器人对自身姿态和位置的感知)以及人类输入的语言指令,实时转化为对 Atlas 机器人的精确控制指令(频率为 30Hz)。

在技术实现上,研究团队采用了先进的扩散 Transformer 架构,并结合流匹配损失函数进行模型训练,以确保生成动作的流畅性和准确性。

实践成果

在一个名为「Spot 车间」的演示任务中,机器人展示了其高度协调的移动与操作能力。整个任务包含三个连续的子任务,机器人仅依靠一个通用的、由语言指令驱动的控制模型便自主完成了全部流程:

1. 从手推车上抓取 Spot 机器狗的腿部零件,将其折叠好,然后精准地放置在货架上。

2. 接着,抓取面板零件,拉开货架底层的箱子,并将面板放入其中。

3. 最后,在清空手推车后,机器人转身处理后方的蓝色大箱子,将其中剩余的各类零件分批搬运到指定的翻斗车里。

在这个未经剪辑的端到端视频中,同一个控制模型便能执行完整的任务序列,其中每个子任务都是通过一个高级语言指令来触发的。



除了标准任务,研究团队还探索了数十种更具挑战性的操作。在 MTS 测试台上,同一个模型可以完成系绳结、将吧台凳翻转过来、展开并铺平桌布,甚至搬运一个重达 22 磅的汽车轮胎。像处理绳索、布料这类可变形物体的任务,用传统编程方法实现起来极其困难,但对于 LBM 而言,其学习过程与堆叠积木并无本质区别。



该模型最引人注目的亮点之一是其智能的异常处理能力。当零件不慎掉落或箱盖意外关闭时,机器人能够自主做出反应并纠正。这种能力并非来自预先编写的固定程序,而是模型从包含了各种干扰和恢复场景的训练数据中自主学习到的。



这意味着,为 Atlas 开发新的复杂行为不再需要顶尖的编程专家和漫长的开发周期。只要能向机器人演示一遍,它就能学会,这为未来大规模扩展机器人的技能库提供了极具吸引力的前景。

此外,该模型还有一个显著特点:可以在不重新训练的情况下,在实际执行任务时灵活调整运行速度。实验表明,在不显著影响任务成功率的前提下,可以将机器人的执行速度提升至演示速度的 1.5 到 2 倍。这证明在某些场景下,机器人的操作效率甚至可以超越熟练的人类操作员。



指导研发的三大核心原则

在整个研发过程中,团队遵循三项核心原则,以确保模型的通用性和可扩展性:

1. 追求最广泛的任务覆盖:为了充分发掘人形机器人的潜力,团队开发了一套顶尖的遥操作系统。该系统结合了 Atlas 强大的模型预测控制器 (MPC) 和定制的 VR 交互界面,使得操作员能够演示从精细的指尖动作到需要全身协调的大范围移动等各种复杂行为,从而极大地丰富了训练数据的多样性。

2. 训练通用化的「通才」模型:研究表明,在一个庞大且多样化的数据集上训练出的「通才」模型,其泛化能力和鲁棒性远超为特定任务训练的「专才」模型。因此,该项目致力于训练一个能响应语言指令的多任务通用模型,并整合了来自不同机器人平台的数据。这不仅简化了部署,还能让不同任务共享学习成果,并为催生涌现行为(即模型自发产生的新能力)创造了可能。

3. 建设支持快速迭代的基础设施:高效的研发离不开强大的基础设施。团队搭建了一套结合了仿真、硬件测试和生产级机器学习平台的环境,使他们能够快速进行实验,科学地评估不同方案的优劣,从而持续、稳定地提升机器人的实际表现。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。