![]()
编辑|Panda
过去一年,具身智能领域迎来了爆发式增长。从后空翻到托马斯回旋,从整理衣物到冲泡咖啡……各类令人惊艳的机器人演示视频层出不穷。
然而,在这些技术繁荣的背后,行业正面临一个愈发核心的拷问:我们到底应该如何判断一个具身智能模型是真的取得了泛化能力的进步,还是仅仅针对特定任务与场景进行了精心优化?
在真实的物理世界中,评测一项操作任务的复杂性远超 LLM 等纯软件领域。当前的许多测试往往依赖于预设环境中的 sweet spot 或是无数次的重试。具身智能产业正加速从技术研发向规模化落地全面跃迁,而统一、高标准的真机评测体系长期缺位,已成为行业发展的核心痛点。
这一缺位不仅无法为产业树立清晰的发展基准,更直接制约了模型的迭代效率。长此以往,研发资源极易过度流向容易出视觉效果的表演项目,使得整个具身智能行业面临「劣币驱逐良币」的商业风险。
在具身智能走向规模化落地的关键节点,建立科学的可量化、可复现、高信度的真机评测标尺已成为亟待解决的行业共识。
为了破解这一困局,中山大学携手自变量机器人、MBZUAI 等机构,在 CVPR 2026 的 Embodied AI Workshop 上正式推出了官方竞赛:ManipArena
![]()
官网地址:https://maniparena.x2robot.com/技术报告:ManipArena: Comprehensive Real-world evaluation of Reasoning-Oriented Generalist Robot Manipulation报告地址:https://maniparena.x2robot.com/maniparena.pdf数据集:https://huggingface.co/datasets/ManipArena/maniparena-dataset
不同于传统仿真评测或简单桌面抓取测试,ManipArena 提供了20 个真机任务(包括 5 个初赛任务和 15 个决赛任务,涉及执行推理、语义推理、移动操作三种任务类型)、10812 条高质量遥操作轨迹,并通过独特的绿幕可控环境和分层 OOD 评估设计,构建了一个可以精确诊断模型泛化能力的科学化评测框架。
![]()
ManipArena 的三种任务类型
作为目前规模最大的真机操作评测平台之一,ManipArena 旨在通过极其严谨的实验设计与科学化框架,精确诊断视觉-语言-动作模型(VLA)或世界模型(WAM)在真实世界中的通用推理与泛化能力,力求为行业树立一个规范且公平的评测新标杆。
事实上,基于该平台的首批基准测试已经给出了极具价值的行业洞察。ManipArena 团队对代表 VLA 的 π₀.₅ 与代表世界模型的 DreamZero 进行了大规模真机对比测试。
初步的评测数据清晰地勾勒出两类模型互补的能力边界:多任务 VLA模型具备更强的精细操作能力,但泛化表现脆弱,面对分布外物体易出现灾难性退化;世界模型则展现出显著的泛化鲁棒性,但仅限于粗粒度操作,在精细任务上力不从心。两种范式各有所长,未来的通用具身操作系统或需深度融合二者的优势。
深度解析 ManipArena
精准诊断泛化瓶颈的科学框架
针对行业痛点,ManipArena 提出了三个核心的评测创新。这套体系旨在给模型做「全面的体检」,让真实的性能差异浮出水面。
分层 OOD 评估,精准诊断泛化瓶颈
以往的评测往往只给出一个最终的总分,很难反映模型的真实能力边界。而ManipArena 会为每个任务进行 10 次测试,且每个任务的 10 次测试按难度进行了分层设计
其中,T1 至 T4 测试域内能力,例如让机器人操作训练集中见过的不同位置的不锈钢勺。T5 至 T8 引入视觉偏移,要求模型处理形状不同但仍在训练分布内的物品,例如儿童勺。最困难的 T9 至 T10 则是语义 OOD 测试,平台会引入训练中从未见过的全新材质或类别,例如黑色的塑料勺。
![]()
「将勺子放入碗里」任务的勺子泛化示例
这种阶梯状的设计,使得单次评估就能为模型绘制出完整的泛化衰减曲线。
初步评测结果:揭示当前 VLA 模型的泛化边界
技术报告披露了部分基线模型的初步评测数据。结果显示,当前的主流视觉语言动作模型在面对多变量叠加的分布外测试时,依然存在严重的泛化软肋。
在单一因素发生改变时,模型尚能保持一定的任务完成度。例如在耳机分类任务中,仅改变耳机类型时,模型平均能获得 2.0 分。一旦面对复合型分布外测试,即同时改变耳机的类型和颜色,模型的表现会立刻出现灾难性崩溃,平均得分直接降为 0 分。而在勺子放置任务中,当材质和颜色同时发生改变时,模型的得分呈现出极端的两极分化,要么拿满分,要么直接得 0 分。
![]()
此外,评测数据还揭示了一个重要现象:对于当前的模型而言,物体形状的相似度比语义类别的归属更加重要。在眼镜放置任务中,虽然测试物品在语义上都属于「眼镜」,但模型对不同物品的表现差异巨大。与训练集形状相同但尺寸更小的儿童眼镜获得了 10.0 分的满分。形状相似但风格不同的墨镜获得了 8.5 分。形状完全不同的护目镜得分则急剧下降至 5.0 分,并且方差极大。
这些真实的评测数据表明:当前的具身智能模型往往表现出一种脆弱的泛化能力。它们很难做到优雅地降级,往往只会在完美成功与彻底失败之间横跳。这进一步印证了 ManipArena 设立多层级、多变量评估体系的工程价值,即帮助研发人员看清模型学到的究竟是深层的语义概念,还仅仅是针对特定形状的抓取策略。
绿幕可控环境与系统化多样性,回归科学严谨性
在真实的开放环境中,光线的细微偏移都会导致模型动作失败。为了排除此类环境干扰,ManipArena 将所有的评估都放置在带有固定光源的绿幕封闭工作站中进行。
这种设计可从物理源头上彻底排除阴影移动、高光反射以及白平衡变化等视觉干扰,进而能保证模型性能差异纯粹反映策略能力的强弱,满足了科学实验严谨性的基本要求。同时,在绿幕环境下,还可以进行更多可控的分层泛化的实验,比如像影视制作一样直接给机器人换个操作场景。
在这个纯净的视觉环境中,平台进一步注入了三个层级的系统化多样性参数:
![]()
三个层级的训练多样性
物理属性层:涵盖物品材质、颜色与尺寸的变化。空间布局层:系统性地改变物体的位置与朝向组合。针对语义推理任务的组合层:改变物品的序列和类别分配。
所有维度的分布都保持均匀,防止模型依靠频率偏差走捷径。
开放 56 维底层感知信号,补齐力觉控制拼图
在数据维度上,ManipArena 提供了每帧高达56维的本体感觉数据。除了常规的关节位置、末端位姿以及夹爪状态,数据集特别收录了电机电流数据和关节速度数据。
![]()
完整的 56 维本体感受规范。所有模式的采样频率均为 20 Hz
这 56 维信号远超常规的机器人学习数据集,它不仅涵盖了双臂各自 7 DOF 的关节位置、末端位姿、夹爪状态以及 3 路同步视频流,更重点保留了电机电流数据和关节速度数据。
要知道,电机电流可以作为底层力矩的代理信号,而关节速度则能捕捉动态运动轨迹,补充静态位置信息。对于倒水感知液体重量、插线感知物理接触阻力等任务来说,这些信息极其关键。
目前主流的视觉语言动作模型均未充分利用这些信号。这些底层感知信号的加入,直接鼓励了力敏感(force-sensitive)策略的研究,可助力智能体更好地学会掌握抓取物品的力道。
任务设置:极高含金量与全场景覆盖
在 ManipArena 的任务库中,没有任何毫无挑战的简单抓取测试。这 20 个真机任务(分为 15 个桌面任务和 5 个需要空间导航的移动操作任务)全部以推理为核心考量,区别仅仅在于推理的瓶颈发生在哪里。
![]()
桌面任务与移动操作任务的机器人平台和评估环境
为了支撑起如此高难度的评测体系,团队构建了庞大的高质量数据集,共计包含 10812 条遥操作轨迹,总时长约 188 小时,累计帧数超过 1350 万帧。这批数据由 5 台真机平台并行采集完成,以扎实的规模确保了评测的有效性。
![]()
不同任务类别的任务统计数据
全方位推理:跨越感知与执行的鸿沟
赛事将桌面任务细分为两个维度。
其中 10 个任务侧重于执行推理。它们要求机器人在明确目标后,去解决具体的动作执行难题,例如完成亚厘米级的精准插入、感知液体动力学进行力控倒水,以及进行双臂协作递交插线等。
![]()
一个将水壶的水倒入杯子任务,这里可以同时看到三个视角的画面,右侧还提供了任务描述以及场景细节
另外 5 个桌面任务则聚焦语义推理。机器人需要先理解复杂的语义关系才能采取行动,比如从杂物堆中识别出特定类型的耳机并进行分类,在多个食物中找到水果,或者读取打印好的颜色序列并按照对应顺序按下按钮。这种设定有效地检验了模型对物体类别与属性的真实理解程度,筛选出真正具备认知能力的智能体。
![]()
一个将水果放入篮子任务
走向空间导航:移动操作任务的深度拓展
为了覆盖更完整的操作场景,ManipArena 在同类赛事中引入了 5 个移动操作任务,包括收纳衣物、挂画以及整理鞋子等。这些任务将评测范围从有限的桌面延展到了 3×3 米的真实物理空间。
移动任务要求机器人具备出色的导航与操作协同能力。根据统计,移动任务的平均执行时长达到 144 秒左右(20 fps 帧率下平均 2878 帧),大约是桌面任务时长的 4.3 倍。
以最具挑战性的衣物收纳任务为例,机器人需要完成 3 次往返,经历 14 个连续的子步骤,平均耗时高达 194 秒。这种长序列的设定,对当前视觉语言动作模型在固定上下文窗口下的时序建模能力提出了极大的考验。
![]()
一个衣物收纳任务
「单一模型」规则:杜绝过度拟合的捷径
尤为严苛的是,赛事官方制定了「一个模型应对所有任务」的核心规则:参赛队伍必须提交一个统一的推理端点来应对决赛阶段的所有 20 个挑战,不被允许针对单一任务去训练专门的专家模型
这意味着同一套策略体系必须同时精通倒水、插线、分拣耳机以及按按钮等截然不同的操作。这一规则强行封死了针对特定任务过度拟合的捷径,迫使参赛者将研发重心回归到打造真正具备通用推理与泛化能力的基础模型上。
这场具身操作的大考
等你接招!
对于广大研究者而言,参与真机评测的最大阻碍往往是极其高昂的硬件成本。ManipArena 创新性地采用了Server-Side 远程真机评测架构:参赛队伍完全不需要购买或者调试任何真实的机器人硬件,仅仅需要拥有一台 GPU 服务器并暴露一个 HTTP 推理端点即可。
这种架构为学术界和工业界提供了一个极低成本的「真机实验室」。赛事的官方基础设施会接管所有的硬件控制与数据采集工作。这确保了所有模型都能在完全相同的物理条件下进行公平比较。
值得一提的是,ManipArena 的所有 20 个任务均统一采用自变量机器人(X Square Robot)的双臂系统进行评测。这套专为 AI 而生的硬件结构设计能够更好地完成模型复现,从根本上消除了不同硬件平台带来的物理差异。这意味着在这里,最终的性能差异将纯粹反映参赛团队策略能力的强弱,真正实现了「评测从未如此简单」的愿景。
同时,参赛者的模型权重和核心代码始终保留在本地服务器上,实现了严格的知识产权保护
官方也非常鼓励参赛者将 ManipArena 作为一个研究平台,基于真实的评测结果去验证新算法并发表学术论文。
为了进一步激励整个技术社区的参与, ManipArena 官方还为赛事设置了实质性奖励。
![]()
在初赛阶段,第 1 名至第 3 名的队伍将获得 500 美元,第 4 名至第 9 名将获得 300 美元,第 10 名至第 20 名将获得 200 美元。而在最终的决赛阶段,冠军队伍将斩获 5000 美元以及 2 台 6 轴机械臂,亚军和季军也将分别获得 3000 美元 + 2 台 6 轴机械臂,以及 2000 美元 + 2 台 6 轴机械臂的奖励。
在评分机制上,ManipArena 摒弃了传统的二元成功率标准,引入了子任务部分得分制。具体而言,每个任务包含 10 次测试(trial),每次满分为 10 分。系统会根据子任务的完成度给出对应分数。目前开放评测的 15 个桌面任务总分为 1500 分,最终排名将严格按照总分高低进行排序。
![]()
每个任务的子任务统计数据
例如在倒水任务中,如果模型成功抓取并举起了水壶,即使最后倒水失败,依然可以获得相应的过程分数。这种精细化的评分体系提供了更丰富的诊断信号。它能够准确揭示模型到底在任务流水线的哪一个具体环节出现了失误,从而为研发人员提供极具指导意义的工程反馈。
![]()
倒水任务的描述以及详细操作和评分
那么,当前的具身大模型的表现如何呢?ManipArena 目前已经测试了π₀.₅-Single(为每个任务独立微调)、π₀.₅-OneModel(统一处理全部 15 个任务)和DreamZero三个模型(通过自回归视频扩散先「想象」未来画面再从中提取动作),涵盖视觉-语言-动作模型(VLA)和世界动作模型(WAM)这两条当前具身领域备受瞩目的技术路线,得到了一组基准成绩。
从总分来看,在满分 1500 分的挑战中,π₀.₅-oneModel 以 640.5 分领跑,π₀.₅-Single 紧随其后获得 626.3 分,DreamZero 则为 500.3 分。观察成功率(SR)可以发现,大量任务的成功率为 0%。这充分说明了该评测体系具有极高的挑战性。详见下表:
![]()
同时,这些结果也揭示了这两种技术路线截然不同的能力边界:
VLA 具备跨任务迁移潜力,但存在程序性遗忘。π₀.₅-oneModel 的成绩证明了多任务联合训练的有效性,其在语义推理上实现了显著的跨任务迁移。但代价是模型在需要读取场景指示并执行特定程序的任务中,出现了明显的程序性知识遗忘,暴露出多任务训练的本质取舍。世界模型在空间泛化上极具优势,但精细操作存在软肋。DreamZero 在纯粹的抓取放置任务(pick_items_basket 任务上拿下了 97.8 的高分与 90% 的成功率)以及分布外泛化上表现出极强的鲁棒性(在 pick_items_into_basket 任务中,篮子位置从右侧逐步移到左侧。π₀.₅-oneModel 的成绩从 4.05 分暴跌到 2.25 分(-44%),π₀.₅-Single 更是从 4.25 跌到 1.83(-57%)。而 DreamZero 从 10.0 分到 9.25 分,仅下降 8%。),抗干扰能力远超 VLA。但面对需要毫米级精度或双臂协同的精细操作时,它往往只能完成粗粒度的初始步骤。这反映出世界模型在粗粒度视频预测与精细动作控制之间存在天然的精度瓶颈,单步推理耗时极长(比 VLA 慢 50 至 70 倍)。
基于子任务评分体系提炼出的 5 维能力边界图谱进一步印证了这一点。
![]()
VLA 擅长精度控制和语义理解,世界模型在空间泛化和粗粒度规划上更胜一筹。这清楚地揭示出,未来的通用操作模型需要深度融合 VLA 和 WAM 这两种范式的优势。完整的测试数据与评测视频均可在官方网站获取,这为行业探索能力边界提供了极具价值的实证基础。
从更宏观的行业视角来看,ManipArena 的出现恰逢其时。它不仅仅是一场单纯的比赛,更是一个高标准的开放研发平台。其构建的分层 OOD 评估体系、多元化场景设计以及子任务部分得分机制,具备天然的学术实验适配性,完全可以作为广大研究者日常研发成果的 benchmark。
官方全力欢迎并支持参赛者依托 ManipArena 的权威评测成果发表高水平学术论文。未来,当各个顶尖团队想要展示最前沿的模型能力以及想测试对不同模型的改进时,完全可以在 ManipArena 这个公开的平台上同台竞技。
通过科研创新与产业验证的双向赋能,ManipArena 将为视觉语言动作模型和世界模型的持续迭代提供坚实的基础,加速整个具身智能产业向真实世界的大规模部署迈进。
报名方式
参赛者可通过官方平台注册并获取训练数据,训练统一模型后提交评测接口参与比赛。
更多信息请访问:https://maniparena.x2robot.com/联系方式:maniparena@gmail.com
文中视频链接:https://mp.weixin.qq.com/s/greKLeayuGqSYmVFdOBSFA





京公网安备 11011402013531号