当前位置: 首页 » 资讯 » 新科技 » 正文

英伟达让机器人学会"随机应变":当机械臂遇到突发状况,该怎么办?

IP属地 中国·北京 科技行者 时间:2026-06-16 18:24:13


这项由英伟达(NVIDIA)与密歇根大学联合开展的研究于2026年6月发布,论文编号为arXiv:2606.07723,有兴趣深入了解的读者可以通过该编号查询完整论文。

**研究背景:一个看似简单却让机器人头疼的任务**

设想你正在厨房里整理桌面,上司交代了一句话:"把桌上所有东西放进碗里,除了红色积木和金枪鱼罐头。" 你会怎么做?你先扫一眼桌面,记住哪些东西该动、哪些不该动,然后一件一件搬运。中途如果不小心抓错了东西,你会立刻意识到,把它放回去,再去拿正确的。整个过程行云流水,不超过两分钟。

对人类来说,这不过是件举手之劳的小事。但对今天的机械臂来说,这却是一项相当艰难的挑战。它需要理解"除了"这个否定词,需要在拿起第四件物品时还记得第一件放在哪、接下来该拿哪个,需要在抓错东西的时候察觉并自我纠正,还需要在碗里已经有东西、空间变得拥挤的时候重新调整抓握方式。任何一个环节出问题,整个任务就宣告失败。

现实世界中的机器人操作任务正是如此——"长链条、开放词汇"的挑战。所谓"开放词汇",意思是人类可以用各种各样的自然语言来描述任务,而不是只接受固定的指令格式;所谓"长链条",意思是完成任务需要按顺序执行好几步甚至十几步操作,前一步的结果直接影响后一步的决策。英伟达和密歇根大学的研究团队为此专门设计了一套系统,叫做VoLoAgent,并配套推出了一个名为RoboVoLo的测试基准。这篇文章将带你完整走进这项研究。

一、为什么现有机器人系统不够用?

要理解VoLoAgent的价值,先得明白它在解决什么问题。

目前机器人控制领域有几类主流方案,可以用几种日常场景来类比。第一类叫做"视觉-语言-动作模型",英文简称VLA。你可以把它想象成一个经过大量训练的厨师,他看一眼菜谱(语言指令)和食材(视觉画面),然后直接动手做菜(输出动作)。这类系统的优点是操作精准、动作流畅,就像训练有素的厨师切菜姿势非常专业;缺点是一旦菜谱写得模糊、食材摆放有变化,他就会发呆——因为他没有"在操作过程中边想边调整"的能力,他只能按照训练时见过的模式一路执行到底。

第二类叫做"代码即策略"方法,相当于让一个程序员先把整个任务写成一段代码,然后机器人按代码执行。好处是逻辑清晰,坏处是代码只能调用预先定义好的工具集,遇到代码里没有描述的情况就束手无策,而且写代码的过程本身也不考虑"万一执行失败怎么办"。

第三类是"任务与动作规划"(TAMP)方法,类似于给机器人一本详细的作战手册,先用符号逻辑规划任务,再将抽象动作映射为实际运动。这类方法在需要运用特定领域知识(比如化学知识、数学知识)时表现不错,但在感知层面和灵活恢复方面有明显短板。

近年来还出现了"VLM+VLA分层"系统,用大型语言视觉模型做"上级指挥官",用VLA做"下级执行员"。上级负责规划,下级负责动手。这种设计已经比单独使用其中一种强,但问题在于:一旦规划好,整个执行过程就是硬连线的——上级说"先拿橙子",下级就去拿,即便发现自己抓到的是柠檬,也不会实时叫停、重新分析。上级和下级之间的沟通是单向的、批量的,不是实时双向的。

研究团队把这个问题的本质归结为一个概念:**物理编排**(Physical Orchestration)。在虚拟世界里运行的AI助手可以随时暂停世界、慢慢思考,因为对话界面会乖乖等你。但机械臂所处的物理世界不会暂停——手臂一直在动,物体一直在运动,重力时刻在工作。所以,一个真正可用的机器人系统必须能够"一边动手一边思考":在机械臂执行动作的过程中同步监测状态,一旦发现偏差立即叫停,然后根据当前实际状况重新调整方案。这个"监测—叫停—重新规划"的完整闭环,正是物理编排的核心要求。

二、VoLoAgent是怎么工作的?

VoLoAgent的设计哲学可以用一个"乐队指挥"的比喻来理解。乐队里有小提琴手(VLA,负责精细操作)、打击乐手(感知工具,负责识别物体)、钢琴手(抓取/放置基础程序,负责执行标准动作),指挥(大型语言视觉模型,简称VLM)站在中间,同时听着所有声部的演奏,随时可以打手势让某个声部停下来、调整节奏、或者切换演奏方式。

关键在于,VoLoAgent里的VLA不再是"总指挥",而是众多工具中的一个——尽管通常是最常用的那个。VLM才是真正的总指挥,它可以在任意时刻中断正在运行的VLA,切换到感知工具或者基础抓取程序来处理当前状况,然后再切换回来。

具体来说,这套系统内置了三类工具。第一类是VLA或世界动作模型(WAM,一种能同时预测未来视频和动作的模型),负责连续、流畅的精细操作,比如把一个不规则形状的物体稳稳放进碗里。这类工具动作自然、流畅,但有时会认错物体。第二类是感知工具,包括GroundingDINO(能根据文字描述找到图像中的物体)、SAM2和SAM3(分割工具,能精确勾勒出物体的轮廓)、以及Molmo2(能根据描述指出物体在图像中的位置)。这些工具像一组"眼科医生",专门负责回答"这个东西是什么、在哪里"的问题。第三类是动作基础程序,主要是抓取(grasp)和放置(place)两个操作——当VLA执行出错时,可以调用这两个更确定性的程序来精准定位并执行单步动作。

VoLoAgent的工作流程分为三个阶段,像一位厨师拿到一道复杂菜谱时的处理方式。

收到任务指令后,VLM首先扫一眼当前场景,把整个任务分解成有序的子目标序列,比如"先拿绿色积木→再拿蓝色积木→再拿柠檬→再拿橙子",并把这些子目标和初始场景图像存进"记忆库"。接下来,它启动VLA开始执行第一个子目标,同时自己也进入监测状态。

监测阶段是整个系统的核心创新。VLM以每0.2赫兹的频率(大约每5秒一次)读取最新的摄像头画面,对照当前子目标判断执行状况:是继续进行(continue)、子目标已完成可以进入下一步(next_subgoal),还是需要进入恢复流程(recovery)?为了做到这一点,系统设计了两个"快慢记忆层"——快记忆层只包含当前画面、当前子目标和最近几步决策,读取速度快,尽量贴近机械臂动作的时间节奏;慢记忆层包含完整任务记忆、场景历史和工具列表,只在需要深度决策时才读取,避免每次都消耗大量计算资源。

恢复阶段处理异常情况。当监测发现问题时,正在执行的工具立即暂停(机械臂停止运动),VLM进入完整的分析流程,从以下几个选项中选择最合适的应对方案:如果判断刚才的警报是误报,就让VLA继续执行;如果子目标需要重新规划,就重新审视剩余子目标并调整顺序;如果VLA拿错了物体,就调用"grasp工具"——先用感知工具精确锁定正确目标的位置,再执行精准抓取,然后交回给VLA完成后续的接触密集型操作;如果放错了位置,就调用"place工具"将物体移到正确位置。

这套设计有一个值得专门说说的"互补性"特质:当grasp工具执行完毕后,机械臂的末端执行器(夹爪)已经被精确定位在正确目标附近,并且获得了一个清晰的拍摄角度。此时再交给VLA接手,VLA就能以极高的成功率完成后续的精细操作——因为最难的"找到正确目标"这步已经被感知工具解决了,VLA只需要发挥它最擅长的"灵巧操作"能力即可。这就像厨师和助手的配合:助手(grasp工具)负责把食材准确切好、摆到案板上,主厨(VLA)负责最后的烹饪——两者的能力形成互补,而不是相互替代。

在技术实现上,系统采用了多进程分离架构,模拟器、编排器、VLA策略服务器和工具服务器各自运行在独立进程中,通过网络接口通信。这种设计的好处是各部分互不干扰、可以分别升级替换,添加一个新VLA只需要写约200行协议适配代码,不需要改动其他任何部分。

三、用来测试的"考题":RoboVoLo基准

光有系统还不够,还需要一套能真正检验其能力的测试题。研究团队为此专门构建了RoboVoLo基准,包含126个任务,分布在4个能力维度、15个任务类别中,全部在高保真物理仿真环境中运行(基于英伟达Isaac Lab)。

这套测试题的设计原则是:不能用"把所有东西都放到同一个地方"这样的简单策略蒙混过关,每道题都要求真正理解指令。

第一个维度叫做"常识推理",考的是从场景上下文推断隐含意图的能力。以"推断"类任务为例,桌上放着5个一类物品和1个异类物品,指令是"把一类的放进碗里,把那个不同类的留在桌上"。机器人需要自己看出哪个是异类,而不是靠指令告诉它。"工具包"类任务要求机器人根据当前情境组合一套配套物品,比如早餐桌摆设。"恢复"类任务是发现并纠正摆放错误。"分类"类任务是按照容器本身的提示信息(比如容器上的标签或形状)把物品分类归位。

第二个维度叫做"记忆跟踪",考的是在操作过程中维护状态信息的能力。"顺序"类任务要求将已经堆叠的积木按照相反的顺序重新堆叠,机器人必须在拆开它们之后还记得原来的顺序。"回溯"类任务更难:先把所有积木从容器里取出摆到桌上,然后把原来处于上半部分的积木放进指定容器——机器人需要在"打乱之后"还能回忆起"打乱之前"各积木的位置。"交换"类任务要求在多个容器之间循环移动物品,类似三杯换豆游戏。

第三个维度叫做"复杂指代",考的是对精细语言描述的理解能力。"空间关系"类任务使用"最左边的"、"最右边的"、"碗后面的"这样的方位描述。"计数"类任务使用"第二个"、"第四个"这样的序数描述。"否定"类任务使用"除了...之外的所有"这样的排除描述。"尺寸排序"类任务要求将物品按大小分配到不同容器中。

第四个维度叫做"世界知识",考的是将外部知识应用于具体场景的能力。"艺术"类任务要求用积木拼出一个火柴人图案。"化学"类任务要求根据化学式知识(比如水是H?O)将周期表元素积木组合到正确位置。"数学"类任务要求通过移动数字积木使等式成立。"回收分类"类任务要求根据材料属性将物品正确投入可回收、可堆肥或垃圾桶中。

在场景资产方面,研究团队专门为RoboVoLo新增了501个3D物品模型,其中包括247个来自英伟达Lightwheel SimReady收藏的家用物品,以及254个任务专属资产——118个印有化学元素符号的方块、120个几何艺术形状(颜色、尺寸、形状各异),以及16个印有数字和运算符号的木质方块。所有模型都带有精确的碰撞几何体和物理属性,确保在仿真中的行为接近真实物体。

四、测试结果怎么样?

研究团队进行了大量实验,与多种现有方法进行对比。每个任务运行3次,确保不同系统在完全相同的初始条件下进行比较,从而保证对比的公平性。

对比结果相当清晰。在RoboVoLo四个维度的综合成绩上,VoLoAgent完整版取得了约42%的任务成功率,而对比方法中最强的独立VLA系统(π0.5)只有约13%,代码即策略方法(CaP-X)约10%,任务与动作规划方法(TiPToP)约12%。考虑到这些任务对任何现有系统都很难,42%已经是相当显著的领先。

拆开来看各个维度,常识推理维度VoLoAgent完整版达到54.4%,比最强基线高出近39个百分点;复杂指代维度达到51%,比最强基线高出约30个百分点;记忆跟踪维度达到36.9%,领先约14个百分点;世界知识维度达到25%,这里领先幅度最小(约2个百分点),因为TiPToP的符号规划方法在需要精确外部知识的任务上本就有优势。

通过对自身进行三个版本的对比,研究团队揭示了各个组件的贡献。"仅用感知工具+基础抓取程序(不用VLA)"版本成功率约18%,远不如完整版——说明VLA的精细操作能力是不可缺少的。"仅用VLA(由VLM文字引导,不用其他工具)"版本成功率约35%,接近但仍低于完整版——说明感知工具和基础程序在关键时刻的介入确实有价值。两者结合的完整版约42%,是三者中最高的,也验证了"互补性"设计的有效性。

研究团队还系统分析了失败原因,这部分分析同样具有参考价值。从"世界层面失败"(即机械臂实际执行层面的错误)来看,π0.5在90次测试中有86次发生了失败,其中只有11次得到了恢复(恢复率13%);VoLoAgent只有70次发生失败,且其中38次得到了恢复(恢复率54%)——不仅出错更少,出错后的自我修复能力也强得多。具体失败类型包括:抓到了错误的物体(最常见)、放到了错误的位置,以及机械臂卡住不动。

从"VLM层面失败"(即智能决策本身的错误)来看,最大的问题是"完成度判断"——VLM有时会错误地认为子目标已经完成(把橙子放进碗里之前就说"放好了"),或者物体明明已经到位却还认为未完成。这类错误在所有测试过的语言视觉模型中都占绝大多数,占总错误量的67%以上。相比之下,规划错误(任务分解本身出错)和工具调用错误都很少见,每90次测试中不超过9次和12次。

研究团队还对比了不同语言视觉模型作为"指挥"时的表现差异。使用Claude Opus 4.6时,每90次测试共出现102次VLM层面失败;使用GPT-5.5时出现241次;使用Gemini 2.5 Flash时出现263次;使用开源的Qwen3-VL-8B时高达456次——比Claude多出近四倍,与此同时Qwen系统的整体任务成功率也相应下降到约20%。这说明"指挥"的能力对整个系统至关重要,弱VLM作为指挥时,再好的工具也难以充分发挥。

将VLA部分替换为其他模型(π0-FAST、MolmoBot、DreamZero)时,完整版系统在每个底层VLA上都获得了2到6倍的性能提升——说明编排框架本身具有很好的通用性,不依赖于特定的VLA模型。

五、真实机械臂上的表现如何?

仿真成绩再好,如果在真实物理环境中跑不通,也只是纸上谈兵。研究团队在一台真实的Franka FR3机械臂上进行了验证实验,使用真实的物理道具,从RoboVoLo的任务池中挑选了14个可以在实验室中复现的任务,每个任务做3次,四个系统各进行42次测试(共168次)。

结果是:π0.5的成功率为14.3%,VoLoAgent完整版的成功率为42.9%,提升了整整三倍。值得注意的是,"仅用感知工具+基础抓取程序"版本的成功率达到45.2%,"仅用VLA+VLM引导"版本达到40.5%,三者之间的置信区间有相当大的重叠。研究团队指出,要在真实机器人实验中区分这三个变体,需要更大规模的测试(更多任务、更多次重复)才能达到统计显著性。定性观察显示,抓取工具在真实环境中表现比仿真中更好,可能是因为真实物体的接触力学与仿真存在差异,而视觉感知工具在真实场景中反而更准确。

六、系统还有哪些局限与未来方向?

研究团队没有回避这套系统的不足之处。

最核心的问题是监测延迟。云端VLM每次调用需要1到5秒,意味着机械臂动作发生后最多5秒才能收到反馈。对于快速发生的失败(比如物体瞬间滑落),这个反应速度可能来不及。未来的方向是开发轻量、高速的本地监测模块,专门负责完成度和失败检测,将响应时间压缩到毫秒级。

第二个问题是"完成度判断"的系统性弱点。正如失败分析所揭示的,这是当前所有VLM都面临的共同短板,需要专门的训练数据和评估方法来改进。

第三个问题是形态限制。这套系统目前只验证了单臂平行夹爪机械臂。理论上,框架本身是与形态无关的,可以扩展到双臂协作、灵巧手或移动机器人,但抓取和放置的基础程序需要针对新的运动学和接触模型重新实现。此外,当前的"安全等待"策略是简单地停止手臂,这对于需要持续运动才能保持平衡的形态(比如双足人形机器人)并不适用。

说到底,这项研究解决的是一个长期困扰机器人研究者的根本性问题:如何让机器人在复杂、动态、语言描述多变的环境中像人一样灵活应对。VoLoAgent给出的答案是:不要把任何单一能力(无论是VLA还是VLM)当作万能钥匙,而是把它们都变成可以按需调用、随时中断和切换的工具,由一个具备全局视野的"指挥"来统筹协调。这个思路本身,以及对"物理编排"这一概念的清晰定义,或许是这项工作最具启发性的贡献。

RoboVoLo基准的发布同样意义重大——它填补了现有评估工具在长链条、开放词汇任务上的空白,为未来的研究提供了一把更有区分度的"尺子"。126个任务的综合成功率42%,意味着在这把尺子面前,还有大量空间等待未来的系统去突破。

感兴趣的读者可以通过arXiv编号2606.07723找到完整论文,项目主页地址为 chicychen.github.io/VoLo,代码和基准将随论文公开发布。

Q&A

Q1:VoLoAgent和普通机械臂控制系统的核心区别是什么?

A:普通机械臂系统通常把视觉语言动作模型(VLA)当作唯一的执行核心,一旦启动就按照训练好的模式一路走到底,中途无法实时感知并纠正错误。VoLoAgent的不同之处在于,它把VLA当作众多可调用工具之一,由大型语言视觉模型(VLM)担任"指挥",在机械臂运动过程中持续监测执行状态,一旦发现抓错物体或卡住不动,立即暂停并调用感知工具或基础抓取程序来纠正错误,然后再继续。这个"监测—叫停—恢复"的完整闭环,是其核心创新所在。

Q2:RoboVoLo基准测试里最难的任务类型是哪些?

A:从测试结果来看,"记忆跟踪"中的"交换"类任务和"世界知识"中的"数学"类任务是所有系统普遍失败率最高的。交换任务要求机器人在打乱物品位置之后还能记住原始配置并精确还原,对状态跟踪能力要求极高;数学任务要求机器人理解数字和运算符号之间的逻辑关系并移动积木使等式成立,不仅需要数学知识,还需要精确的空间操作。即使是VoLoAgent完整版,在这两类任务上的成功率也在个位数或极低的两位数范围内。

Q3:VoLoAgent的监测频率为什么只有0.2赫兹,这会影响恢复速度吗?

A:0.2赫兹意味着大约每5秒进行一次状态检查,这个频率是在权衡云端VLM每次调用耗时(1到5秒)与监测实时性之后的折中选择。对于机械臂正常动作的节奏来说这个频率基本够用,但对于快速发生的失败(例如物体瞬间滑落)确实可能反应不及时。研究团队在论文中明确指出这是当前系统的主要局限之一,未来方向是开发专门的轻量本地监测模块,将响应速度提升一个数量级,从而更及时地捕捉快速失败事件。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。