![]()
这项由独立研究员伊利亚·拉尔琴科、格列布·扎林和阿卡什·卡纳塔克组成的团队完成的突破性研究,在2025年12月9日发表的论文中详细介绍了他们如何在BEHAVIOR挑战赛中夺得冠军。该论文题为《Vision-Language-Action模型的任务适应:2025年BEHAVIOR挑战赛第一名解决方案》,有兴趣深入了解的读者可以通过arXiv:2512.06951v1查询完整论文。
想象一下,如果有一个机器人助手能够像人类一样在家中自如地完成各种家务活动,从简单的开收音机到复杂的烹饪热狗,那会是怎样的体验?这正是BEHAVIOR挑战赛想要实现的目标。这个比赛要求AI系统在逼真的虚拟家庭环境中完成50种不同的家务任务,每个任务都需要机器人具备类似人类的灵活性和智能。
研究团队面临的挑战就像是要培养一个完美的家庭助手。这个助手不仅要能看懂环境,理解任务,还要能用两只手协调完成复杂动作,甚至在房间里自如移动。更难的是,它需要在一个政策模型下处理所有50种不同的任务,就像一个真正的全能助手。
团队基于Pi0.5架构开发了他们的解决方案,这就像是在一个已经很聪明的助手基础上进行升级改造。他们的创新包括引入了相关噪声流匹配技术,这种方法能让机器人的动作序列更加流畅自然。同时,他们还开发了可学习的混合层注意机制和System 2阶段跟踪系统来解决模糊状态的问题。
最终,他们的方法在所有50个任务上达到了26%的q分数,在公开和私人排行榜上都获得了第一名。这个成绩看似不高,但考虑到任务的复杂性和多样性,这已经是一个remarkable的突破。就像一个刚学会做家务的孩子,虽然还不能每次都完美完成,但已经展现出了惊人的学习能力和适应性。
一、家务机器人面临的重重挑战
BEHAVIOR挑战赛可以说是目前最具挑战性的家庭机器人测试。这个比赛要求机器人在逼真的虚拟环境中完成50种不同的家务活动,就像要求一个人在陌生的房子里完成从简单到复杂的各种任务。
整个挑战的核心在于长期任务执行能力。每个任务平均需要6.6分钟才能完成,最长的任务甚至需要14分钟。这就像要求机器人保持专注力完成一系列连贯的动作,中间不能出错。任何一个小失误都可能导致整个任务链的崩溃,就像多米诺骨牌效应一样。
机器人还必须具备双手协调能力。它配备了两个七自由度的机械臂,每个都有平行夹爪。这种设计让它能够像人类一样用双手配合完成复杂操作,比如一只手扶住物体,另一只手进行精细操作。
移动导航也是一大挑战。机器人需要在杂乱的室内环境中自如移动,避开障碍物,找到目标位置。同时,它还要处理来自头部和两个手腕摄像头的多视角图像信息,就像人类通过眼睛和触觉同时感知环境一样。
最具挑战性的是任务多样性要求。50种不同的活动涵盖了家庭生活的方方面面,从整理物品到烹饪食物,每种任务都有其独特的要求和操作序列。机器人必须用同一个策略模型或少数几个检查点来处理所有这些任务,这就像要求一个人成为全能的家务专家。
评估环境使用OmniGibson仿真平台,基于NVIDIA Isaac Sim构建,提供了高度真实的物理效果和渲染效果。每个任务都会在10个不同的场景中进行测试,初始条件随机化,确保机器人的泛化能力。性能通过q分数来衡量,这个指标结合了成功率和子任务完成的部分分数。
二、机器人学习的核心难题
长期家务操作面临着几个根本性挑战,每一个都像是机器人学习路上的重大障碍。
首先是误差累积问题。当任务需要数千个时间步才能完成时,即使是很小的预测误差也会像雪球一样越滚越大。就像走路时稍微偏离方向,时间长了就会完全迷失。这要求机器人要么具备极其精确的预测能力,要么拥有强大的错误恢复机制。
非马尔可夫状态是另一个巨大挑战。许多任务状态在视觉上看起来几乎相同,但实际含义完全不同。举个例子,机器人在任务开始时拿着收音机和在任务结束时拿着收音机,从摄像头看到的画面可能一模一样,但需要执行的动作却截然不同。没有对过去动作的记忆或明确的阶段跟踪,策略无法区分这些状态,可能会执行错误的动作。
缺乏恢复示范数据也是一个严重问题。训练数据完全由成功的演示组成,就像学习资料只包含标准答案,没有错误案例的处理方法。当机器人偏离演示轨迹时(这在误差累积的情况下不可避免),它会遇到训练期间从未见过的状态。在这种分布外的情况下,策略必须能够自行泛化并找到恢复方法。
多模态动作分布使问题变得更加复杂。许多状态允许多种有效的动作序列,比如使用哪只手、先抓哪个物体等。同一任务的不同演示在训练数据中以不同速度完成,这增加了学习的难度。机器人需要在这些多样的解决方案中找到最适合当前情况的路径。
三、创新解决方案的核心思路
研究团队基于Pi0.5架构开发了他们的解决方案,Pi0.5是一个使用流匹配来预测动作序列的视觉-语言-动作模型。他们的修改方案通过一系列创新组件来解决前述挑战。
在建模动作结构方面,团队发现机器人动作表现出强烈的相关性,包括时间相关性(平滑轨迹)和跨维度相关性(协调关节运动)。他们明确地对这种结构进行建模,使用从N(0, βΣ + (1-β)I)采样的相关噪声进行训练,其中Σ是经验动作协方差,β=0.5。这种方法使训练更加高效,并在推理期间实现了原理性的修补。
为了提供非马尔可夫上下文,团队引入了System 2阶段跟踪系统。模型预测当前任务阶段,投票机制过滤嘈杂的预测以保持稳定的阶段估计。这些阶段信息与任务嵌入融合并反馈给模型,从而解决模糊状态问题。
在结合学习与启发式方面,纯学习方法在缺乏恢复数据的情况下表现不佳。团队通过从失败分析中得出的纠正规则来补充学习策略,这些简单的启发式能够检测并从常见失败模式中恢复,比如意外的夹爪关闭。
团队还应用了可学习的混合层注意机制,允许每个动作专家层关注所有VLM层的学习线性组合,而不是任意决定动作专家层应该如何关注VLM层。
在训练方面,团队使用多样本流匹配技术,每次VLM前向传播计算15个预测,以减少梯度方差,同时分摊昂贵的视觉-语言计算成本。
在推理时,团队应用动作压缩技术,通过三次样条将26个预测动作压缩到20个执行步骤,实现1.3倍的加速。
团队还通过移除文本处理并使用可训练的任务嵌入来简化VLM部分,而不是文本提示。技术上这去除了"VLA"和"VLM"术语中的"L",但为了简单起见,他们保留了这些名称。
四、任务嵌入:从语言到专用编码
原始的Pi0.5使用语言嵌入来指定任务,就像通过自然语言告诉机器人要做什么。研究团队将这种方式替换为针对BEHAVIOR-1K结构化任务的特定任务嵌入。
BEHAVIOR挑战赛的一个关键特点是泛化需求非常有限。只有50个任务同时出现在训练和评估数据中,这意味着策略不需要明确地泛化到自然语言描述的新任务。机器人只需要掌握这固定的50种家务活动。
团队没有处理自然语言提示,而是使用可训练的任务嵌入,为50个任务中的每一个使用一个2048维的嵌入,从零开始训练。这种方法就像给每种家务活动分配一个专用的"身份证",机器人可以直接识别和理解。
这种简化对于BEHAVIOR-1K是合理的,原因包括几个方面。首先,只有50个不同的任务组成固定集合,不需要处理无限可能的自然语言指令。其次,任务语义隐含在演示数据中,机器人可以通过观察学习任务的本质。第三,这种方法移除了语言模型处理的开销,提高了计算效率。最后,它允许模型直接学习任务特定的特征,而不需要通过语言理解这个中间步骤。
五、System 2:阶段预测与融合系统
团队面临的一个重大挑战是非马尔可夫状态的存在,这意味着当前任务状态不足以预测正确的下一个动作。机器人可能在同一任务的开始和结束看到几乎相同的图像,但需要执行完全不同的动作。
为了解决这个问题,团队添加了一个简单的System 2系统。这个系统基于图像和任务嵌入预测任务的当前阶段,应用投票逻辑来过滤不正确的预测,并在后续步骤中将其用作模型的额外输入。
在阶段预测方面,每个任务基于演示长度被分为5到15个阶段。系统使用VLM输出上的线性分类器来预测当前阶段。15是所有任务中阶段数的最大值,无效阶段在softmax之前被屏蔽为负无穷。阶段预测在训练数据上达到了约99%的准确率,为动作预测提供了可靠的上下文。
在阶段-任务融合方面,团队使用多种学习表示(正弦-余弦编码、任务特定学习嵌入和门控组合)将任务嵌入与阶段信息融合。这为模型提供了5个任务相关的令牌。
六、可学习的混合层注意机制
在不同的VLA模型中,流匹配或扩散动作头与VLM部分的结合方式各不相同,团队没有看到明确的优胜者。因此,他们决定让模型自己决定关注哪些层以及如何关注。
在训练和推理期间,团队首先计算VLM部分所有层的键值缓存,然后使用可学习的权重和偏差对其进行转换。对于每个动作专家层j,他们计算转换后的键和值作为所有VLM层的线性组合。
这种设计具有几个特点。模型可以关注任何VLM层,权重可以选择早期、中期或后期层。它可以通过关注多个层的加权平均来形成平滑组合。它可以从数据中学习,无需手动架构搜索。
这种方法在参数效率方面表现优异。对于18个动作专家层中的每一个,团队只需要学习18个标量系数加上一个偏差张量,分别用于键和值。团队对键和值使用不同的系数,因为没有理由让它们相同。
初始化时,权重设为单位矩阵,偏差设为0,因此模型从Pi0.5的层到层注意开始。由于团队从预训练的Pi0.5权重开始,经过大量微调后,单位初始化已经是一个很好的先验。观察到的学习偏差显示,模型倾向于更多关注最后的VLM层,尽管这可能是噪声。团队预期这种方法对从头训练的模型或从非机器人VLM初始化的模型会有更大的效果。
七、自定义注意力掩码的层次结构
团队使用层次化的注意力模式,将可靠的输入与嘈杂的输入隔离开来。这种设计就像建立了一个信息处理的等级制度,确保最重要和最可靠的信息能够得到适当的处理。
图像令牌之间以及与任务令牌之间使用双向注意力。任务令牌与图像进行双向交互。阶段令牌关注图像、任务和本体状态。状态令牌关注图像、任务、阶段和其他状态令牌。FAST令牌关注所有前缀令牌并彼此因果关注。动作专家令牌在彼此之间使用双向注意力,关注除FAST之外的所有其他前缀令牌。
这种设计的基本原理很清晰。图像和任务嵌入是最可靠的输入,直接来源于观察,具有确定性。团队防止它们关注更嘈杂的输入,如机器人状态(在推理期间可能漂移)或预测阶段(可能不正确)。这保持了视觉特征的清洁。
在System 2中,只有图像和任务嵌入用于预测当前阶段。为了避免目标泄漏,它们不应该关注阶段令牌。FAST令牌自回归地预测动作,因此它们关注所有前缀令牌并彼此因果关注(仅在训练期间使用)。动作专家令牌同时预测整个块,因此它们在彼此之间使用双向注意力,同时关注除FAST之外的所有前缀令牌。
八、Delta动作空间与时间戳归一化
团队不是预测绝对关节位置,而是预测delta动作,也就是相对于当前状态的变化量。这种方法就像告诉机器人"向前移动10厘米"而不是"移动到坐标(x,y,z)",提供了更好的泛化性能。
具体来说,团队预测的delta动作是目标位置与当前位置的差值。这种表示方法提供了对初始配置的不变性,在不同起始状态下具有更好的泛化能力,并且更容易学习平滑轨迹。
团队还实施了按时间戳归一化的技术。对于每个动作维度和块中的索引,他们计算该特定时间点的均值和标准差,然后进行归一化。
为什么要按时间戳归一化?动作分布在轨迹内随时间变化。块中的初始动作非常接近当前状态(小delta),而后期动作变化更大。按时间戳归一化使整个时间范围内的学习问题更加均匀。需要注意的是,速度和夹爪位置被排除在按时间戳归一化之外。
九、相关噪声:流匹配的结构化方法
团队的关键创新之一是在流匹配训练和推理期间明确建模动作相关性。这种方法认识到机器人动作并不是独立的随机事件,而是具有内在结构和相关性的协调运动。
机器人动作在两个方面表现出强相关性。时间相关性表现为相邻时间步的动作相似,形成平滑轨迹。跨维度相关性表现为关节速度的协调,例如躯干关节一起移动。
标准流匹配使用独立的高斯噪声,这创造了一个训练问题。早期去噪步骤(t≈1)很困难,但一旦进行几个去噪步骤,模型学会了相关结构,后期预测就变得简单。
团队的解决方案是生成已经匹配动作结构的相关噪声。这使得所有去噪步骤的难度更加平衡。他们从训练集估计完整的相关矩阵,将标准化的动作序列展平为高维向量,然后计算样本协方差。
为了稳健性,团队应用收缩正则化,使用纯协方差矩阵可能不稳定,因此他们应用收缩正则化,其中β∈[0,1]是收缩参数,团队使用β=0.5作为平衡选择。
要采样相关噪声,团队使用Cholesky分解,然后生成相关噪声。使用相关噪声,流匹配插值在t=1(纯噪声)时,x1=ε具有与真实动作相同的相关结构。模型即使在最嘈杂的步骤也能看到合理的动作模式。在t∈(0,1)时,插值在整个去噪过程中保持相关结构。这使得训练任务更加均匀,并保持不同去噪步骤的难度更加平衡。
十、多样本流匹配:减少训练方差
标准流匹配为每次观察计算一个动作预测,为每个批次元素随机采样(t, ε)。这在训练信号中引入了显著的方差,就像每次练习都使用不同的难度等级,学习效果不够稳定。
流匹配损失有两个随机性时间采样和噪声采样。团队可以在多个流样本之间分摊昂贵的VLM前向传播,并减少结果梯度的随机性。
团队的算法包括三个步骤。首先进行VLM前向传播,为所有前缀令牌计算KV缓存一次。然后进行多样本动作预测,对每个样本采样不同的(tn, εn),计算嘈杂动作,运行动作专家。最后进行反向传播,梯度通过所有N个样本流回。
这种方法在保持计算效率的同时显著减少了训练方差,就像用多个角度同时观察同一个问题,得到更稳定可靠的学习信号。
十一、训练策略与多任务学习
团队采用两阶段训练策略。首先进行多任务训练,在所有50个任务上同时训练。这个阶段在8×H200 GPU上进行了15天的不间断训练。然后进行任务组特定微调,根据验证结果将任务分为最佳(最高成功率)、良好(分数>0)、较差(分数~0)组,分别训练。这个阶段每组大约需要1周。
团队的总损失是三个组件的加权组合:动作损失、阶段预测损失和FAST辅助损失。动作损失是在N个样本上平均的流匹配损失。阶段预测损失是权重为0.1的阶段分类交叉熵损失。FAST辅助损失权重为0.05(从初始训练的0.1降低)。
最终提交使用4个任务特定检查点,根据任务ID自动切换。团队的总竞赛预算约为13000美元,个人花费约3000美元用于实验和评估,Nebius赞助10000美元用于8×H200 GPU的主要训练运行。
十二、推理优化:相关感知修补与动作压缩
为了确保平滑的动作序列并解决局部多模态,团队使用滚动修补策略。他们不是直接执行所有预测的动作,而是采用软修补策略。
具体过程是预测30个动作,执行前26个动作,保存最后4个动作作为初始条件,然后在下一次预测中生成30个新动作,使前4个几乎匹配保存的动作,最后重复这个过程。
关键挑战是如何在尊重相关结构的同时约束初始动作。朴素的方法对前4个动作应用硬约束,对其余部分不进行调整。这在动作4和5之间的边界创建不连续性,模型预测不尊重修补和自由动作之间的相关性,每个流匹配步骤的输入变得分布外。
团队的方法使用学习的相关结构传播修正。将相关矩阵分区为修补和自由部分,然后在每个去噪步骤中,在模型预测后计算修补维度上的期望状态,计算加法修正,应用硬约束,并将修正传播到自由维度。
修正矩阵编码在修补维度上给定修正的情况下,每个自由维度应该调整多少,确保平滑过渡。团队使用数值稳定的求解器预计算这个矩阵一次。
团队仅在早期去噪步骤(t>0.3)期间应用修补修正。在早期t时,保持约束和相关性对平滑轨迹至关重要。在后期t(接近目标)时,模型应该有完全的自由来适应当前观察。这种"软"修补允许在观察变化时偏离初始计划。
在动作压缩方面,相对于演示数据加速动作执行可以通过允许每个时段更多的预测周期和更多恢复失败的尝试来提高任务完成率。团队应用类似的原理,使用三次样条插值预测26个动作在30Hz,执行20步在30Hz,加速比为1.3倍。
团队使用三次样条插值生成平滑的中间动作,而不是线性重采样,后者可能引入抖动。他们将基础速度维度按1.3倍缩放以适应更快的执行,关节速度保持不变,因为它们已经标准化,控制器处理时间。当夹爪状态显著变化时,团队禁用压缩,许多失败与抓取相关,因此当机器人试图抓取物体时,他们放慢速度并给策略更多时间。
十三、阶段跟踪与纠正规则
模型在每个推理步骤预测当前阶段。由于单个预测可能嘈杂,团队采用多数投票方案确保稳定的阶段转换。他们维护三个最近阶段预测的滑动窗口,在每个推理步骤,模型输出阶段logits,团队取argmax获得预测阶段,并将此预测附加到历史缓冲区。
阶段转换遵循基于预测历史的三个规则。前向转换:如果三个预测中至少两个指示下一阶段,团队前进到该阶段并清除历史。这种多数投票防止单个嘈杂预测的过早转换,同时仍允许响应式进展。跳跃检测:如果三个预测一致指示当前阶段+2,这表明机器人比预期更快完成阶段或阶段已经满足,团队前进一个阶段以追赶,然后清除历史。回滚:如果三个预测一致指示前一阶段,团队回滚一个阶段,这处理需要重新尝试子任务的情况。要求一致同意使回滚比前向转换更保守。
任何阶段转换后,预测历史被清除,以防止陈旧预测影响未来转换。
BEHAVIOR-1K数据集非常干净,不包含恢复演示。在实践中,如果策略失败任何动作,很有可能最终处于分布外状态并完全卡住。所有任务中最常见的失败之一是抓取失败并在空气中关闭夹爪。几乎没有训练数据显示机器人在关闭夹爪后打开夹爪,这导致完全失败,因为机器人被卡住无法执行任何动作。
为了解决这个问题,团队实施了一个简单规则:如果夹爪关闭,但在相同阶段的训练数据中从未关闭,团队将其视为失败抓取并完全打开夹爪。这个纠正规则单独使选定任务的成功率大约翻倍,其中抓取物体是常见失败模式。
团队开始尝试更细粒度的任务特定规则,但最终只添加了一个"turning_on_radio"任务的简单规则(如果达到最终阶段但未成功则回滚2个阶段)。团队认为这种方法在改善结果方面有潜力,但不可扩展或可泛化,因此没有进一步追求。
十四、评估结果与分析
在标准化评估协议下,BEHAVIOR-1K挑战赛使用50个家务活动,每个任务10个评估时段,具有固定实例和随机初始条件。成功指标包括目标条件满足(二元和部分),时间限制是任务特定的,为演示数据集中平均人类任务完成时间的2倍。
团队在前5名团队中获得第一名,公开和私人评估之间几乎没有差异。在他们的案例中,部分成功贡献了大约一半的总分。团队达到了26%的q分数,这个成绩虽然看似不高,但考虑到任务的复杂性和多样性,已经是一个显著的成就。
分析显示,一些任务几乎已经解决,除非在特别棘手的初始条件下。对于成功率为0的任务,团队观察到它们通常不是普遍不可能的,而是通常包含一个需要非常高精度操作的棘手步骤,或者是超出当前模型限制的仔细遵循的序列。
任务持续时间似乎不是根本障碍。较长的任务只是有更多步骤,这使得完全成功更加困难,但部分成功仍然非常可实现。
团队对失败模式进行了分析,标记了一部分任务的多选失败原因。灵巧性问题占主导地位,约占失败的三分之一,这主要是机器人无法可靠地拾取或释放物品的笨拙性。顺序错误是另一个主要问题,许多任务需要特定顺序,另一个常见问题是决定提前完成。混淆行为可能由机器人进入分布外状态引起。机器人有时在尝试蹲下从地板拾取物品时开始向后倒。推理问题出现在机器人应该选择局部非显而易见的动作时。搜索问题中,去噪过程中的随机性在持续探索方面效果惊人,但可能导致重复遍历同一区域。
十五、跨任务学习带来的恢复行为
从跨任务学习中出现的恢复行为是改善模型的关键因素。单任务模型没有表现出恢复行为,在所有50个任务上训练的相同架构展现出广泛的恢复行为,如拾取掉落的物体。
一般来说,更多训练提高了各任务的成功率,但对某些任务,多任务模型表现更差。团队假设这可能是由于任务持续时间短,因此在数据集中相对权重低,或者由于具有相似视觉特征的不同任务之间的混淆。
在主训练运行期间,团队定期分支检查点并在1-2个任务上进行微调。在训练早期,这给出了显著的性能提升,但在后期阶段,主运行达到了可比性能,表明训练不足是主要限制因素。
团队的分析突出了当前VLA模型灵巧操作、System-2风格组件指导IL策略和多样化预训练数据集的主要焦点问题,以扩大模型产生有意义动作的流形。这表明在这个挑战上的工作与现实世界问题相关。
由于预算限制,团队没有运行完整的消融研究。小规模实验显示,模型对图像质量出人意料地宽容。比较224×224生成与720×720缩放没有导致有意义的变化。更令人惊讶的是,用于评估的云提供商中的机器不支持NGX,这导致了容易察觉的图像质量下降,但对成功率的影响很小。
推理参数的小变化(执行动作数、执行加速、投票历史长度)没有显示显著变化。极端变化导致分数下降。夹爪打开纠正规则在13个任务的39个时段子集上显示q分数增加2.2倍。
说到底,这项研究展示了如何让机器人真正学会做家务这件事。虽然26%的成功率听起来不高,但考虑到这些任务的复杂性,这已经是一个了不起的成就。就像教会一个孩子做家务一样,机器人现在不仅能够理解要做什么,还能在遇到困难时想办法解决问题。
更重要的是,这项研究证明了一个重要观点:让机器人学会多种不同的任务,比只教它做一件事情要好得多。当机器人学会了洗碗、整理房间、烹饪等各种技能后,它在遇到意外情况时就能运用这些经验找到解决办法,就像掉落的物品,单独训练的机器人可能就傻眼了,但学过多种任务的机器人知道要把它捡起来。
虽然距离真正实用的家务机器人还有一段路要走,但这项研究为我们指明了方向。未来的机器人助手可能会越来越聪明,越来越可靠,最终真正成为我们生活中的得力帮手。这项由独立研究员完成的突破性工作,为整个机器人学习领域树立了新的标杆,有兴趣深入了解技术细节的读者可以通过arXiv:2512.06951v1查询完整的研究论文。
Q&A
Q1:BEHAVIOR挑战赛到底考验机器人什么能力?
A:BEHAVIOR挑战赛要求机器人在虚拟家庭环境中完成50种不同的家务任务,包括简单的开收音机到复杂的烹饪热狗。机器人需要具备双手协调操作、室内导航、多视角感知和长期任务执行能力,每个任务平均需要6.6分钟完成,最长可达14分钟。
Q2:这个研究团队的相关噪声流匹配技术有什么特别之处?
A:传统方法使用独立的随机噪声训练机器人,但这个团队发现机器人动作具有内在相关性,比如相邻时间步的动作应该平滑连接,关节运动需要协调。他们使用结构化的相关噪声进行训练,让机器人从一开始就学会协调性动作,使训练更高效、动作更自然。
Q3:为什么机器人做家务的成功率只有26%?
A:26%的成功率实际上是一个重大突破,因为这些家务任务极其复杂。每个任务需要数千个连续动作,任何小错误都会累积放大,而且机器人必须用同一个模型处理50种完全不同的任务。就像要求一个人成为全能家务专家,能够完美处理从烹饪到清洁的所有活动。





京公网安备 11011402013531号