当前位置: 首页 » 资讯 » 新科技 » 正文

中兴EmbodiedBrain模型让具身大脑学会「复杂规划」

IP属地 中国·北京 机器之心Pro 时间:2025-12-03 18:19:55



在人工通用智能(AGI)的探索征程中,具身智能 Agents 作为连接数字认知与物理世界的关键载体,其核心价值在于能够在真实物理环境中实现稳健的空间感知、高效的任务规划与自适应的执行闭环。

然而,当前主流大语言模型(LLMs)与多模态大语言模型(MLLMs)在具身任务场景中,普遍面临三大核心瓶颈:一是模型设计与智能体实际需求存在显著脱节,难以适配物理世界的动力学特性、传感器噪声与动态变化;二是实时延迟与任务性能间存在不可调和的权衡,轻量化模型虽能满足实时性需求,却在指令遵循、空间感知等关键能力上表现薄弱;三是现有评估依赖非真实的离线指标,无法全面反映模型在复杂真实场景中的鲁棒性与泛化能力。

为此,中兴星云大脑团队(ZTE NebulaBrain Team)重磅推出具身视觉 - 语言基础模型 EmbodiedBrain,以 7B 和 32B 两种参数规格构建了涵盖数据架构、训练策略、评估体系的全流程创新框架,为下一代通用具身智能体的发展提供了突破性解决方案。



Arxiv: https://arxiv.org/abs/2510.20578WebPage: https://zterobot.github.io/EmbodiedBrain.github.io/Code: https://github.com/ZTERobot/EmbodiedBrain1.0/Models:https://huggingface.co/ZTE-AIM/EmbodiedBrain-7Bhttps://huggingface.co/ZTE-AIM/EmbodiedBrain-32B

架构创新:模块化设计实现感知 - 推理 - 行动一体化闭环

EmbodiedBrain 以 Qwen2.5-VL 为基础框架,创新性地采用模块化编码器 - 解码器架构,成功打通了「感知 - 推理 - 行动」的全链路,实现了三大核心能力的深度协同(图 1)。



图 1 EmbodiedBrain 的架构:该模型处理多种多模态输入,包括任意分辨率的图像、长视频序列以及复杂的语言指令。视觉输入由视觉编码器和 MLP 投影器处理,文本输入则进行分词处理。所有输入被送入核心大语言模型(LLM)解码器,该解码器执行深度推理并生成结构化输出。最终输出包含三部分:自然语言响应(

)、分步规划(

)和可执行动作序列(

),从而实现对具身环境的直接控制与交互。

该架构的三大核心组件各司其职且高效联动:

1. 原生分辨率视觉 Transformer(ViT):作为视觉编码器,其采用窗口 注意力机制,能够在处理原生分辨率图像时兼顾效率与细节捕捉;同时引入二维旋转位置编码(2D Rotary Positional Embedding, ROPE),精准保留图像中的空间几何关系,为后续空间推理提供扎实的视觉基础。

2. 轻量级 MLP 视觉 - 语言融合器:承担视觉特征与语言嵌入空间的「桥梁」作用,通过压缩视觉特征维度、对齐模态语义分布,确保视觉信息与语言指令能够在统一的表示空间中高效交互,避免多模态信息割裂导致的理解偏差。

3. 基于 Qwen2.5 初始化的解码器:作为模型的「认知核心」,采用仅解码器结构,引入时间对齐的多模态 ROPE(Multimodal RoPE Aligned to Absolute Time)技术,显著强化对长视频序列的时序理解能力,能够处理动态场景中的时间依赖关系。

从工作流程来看,视觉输入首先经视觉编码器与 MLP 融合器处理,转化为与语言兼容的特征;文本指令经分词后与视觉特征共同构成多模态 token 序列,输入解码器;最终解码器输出包含三部分的结构化结果:

字段提供自然语言交互反馈,

字段将任务分解为 [Navigate](导航)与 [Manipulate](操作)两类可解释步骤,

字段以二元 / 三元组格式生成直接调用智能体 API 的可执行动作。

以「从冰箱取番茄并加热」任务为例(图 1),模型可生成「导航至冰箱→打开冰箱→取出番茄→导航至微波炉→加热番茄」的清晰规划,以及对应的 [Navigate, Fridge]、[Manipulate, Open Fridge] 等动作序列,完美实现从语义理解到物理执行的闭环。

数据与训练:Agent 对齐设计与强化学习突破长程规划瓶颈

数据架构:面向具身智能的结构化设计与多源筛选

为解决模型与具身智能体需求脱节的根本问题,EmbodiedBrain 创新设计了规划中心型结构化数据格式(图 2、图 3),该格式严格遵循「用户查询 - 模型响应 - 显式规划 - 底层动作」的层级逻辑,确保高层任务目标与底层执行步骤的精准对齐。

以「将脏衣服放入洗衣机」任务为例(图 2),

字段明确交互意图,

字段分解为 5 个导航与操作步骤,

字段以 [Search, Dirty clothes]、[Navigate, Basket] 等标准化格式生成动作,既满足机器可解析性,又保留人类可解释性。



图 2: EmbodiedBrain 训练数据概览

训练数据涵盖四大核心类别,通过多阶段筛选策略保障质量:

1. 通用多模态指令数据:包括 tulu-3-sft-personas-instruction-following(10K 样本,强化指令遵循与约束满足)、UltraIF-sft-175k(20K 样本,含单轮 / 多轮对话,提升长程记忆)、MM-IFInstruct-23k(22K 样本,结合图像接地对话,强化多模态 grounding),为模型奠定通用指令理解基础。

2. 空间推理数据:基于 EmbSpatial 与 pixmo-points 数据集,通过「基线模型生成验证 + GPT-4o 二次过滤」的两阶段拒绝采样(图 2),筛选出 50K 空间推理样本(含目标查询、物体关系推理)与 60K 视觉定位样本(含计数、坐标标注),强化模型对三维空间的理解能力。

3. 任务规划数据:基于 Alfred 数据集(AI2-THOR 环境),通过解析 PDDL 文件生成子任务序列、捕获全景图像与物体边界框、动态更新物体位置等流程(图 3),构建空间接地的规划数据集,确保规划步骤与物理环境适配。

4. 视频理解数据:融合 Ego4D、Epic-Kitchens、EgoPlan-IT 三大数据集,生成「回顾性理解」(如「已完成何种动作」)与「前瞻性规划」(如「下一步应执行何种动作」)两类 QA 样本,并通过 Qwen2.5-VL-72B 过滤确保数据质量,提升模型对动态场景的时序推理能力。



图 3 监督微调(SFT)阶段的整体数据分布及各动作的规划数据分布

在数据配比上,通过对比 5 种不同数据混合方案(表 1),发现「通用 MLLM 数据 52K: 空间推理数据 130K: 任务规划数据 51.5K: 视频理解数据 20K」的配比(52:130:51.5:20)效果最优 —— 该配比在空间推理平均得分达 70.27%(仅比最高值低 0.6%),同时在任务规划平均得分达 64.64%(为所有方案最高),尤其在执行规划(EP1/EP2)与目标导向推理(EgT)子任务上提升显著,为后续训练奠定了均衡的数据基础。

训练策略:两阶段范式与 Step-GRPO 创新突破

EmbodiedBrain 采用「监督微调(SFT)+ 强化学习(RL)」的两阶段训练策略,层层递进优化模型能力:



图 4 所提出的 Step-GRPO 的详细流程

Stage 1:多模态拒绝采样 SFT:核心目标是提升模型的基础感知与推理能力。针对数据噪声问题,设计 “粗粒度过滤 + 细粒度验证” 的两阶段拒绝采样:首先用 Qwen2.5-VL-7B 生成 8 个候选响应,通过 Qwen3-30B-A3B-Instruct-2507 筛选掉明显错误样本;再用 Qwen2.5-VL-72B 生成 “ oracle 答案”,与原始标签对比,剔除标签错误样本。该过程有效去除数据噪声,确保 SFT 阶段学习信号的可靠性。

Stage 2:Step-GRPO 多任务强化学习:如何让模型在没有人类手把手教学的情况下,学会处理复杂的长序列任务?EmbodiedBrain 给出的答案是Step-GRPO(分步增强的组相对策略优化)。类似于 DeepSeek-R1 等推理模型背后的强化学习思路,Step-GRPO 引入了「引导先验」机制。这就好比老师在教学生解难题时,不是直接给答案,而是给出关键的中间步骤提示。这种机制将复杂的长任务拆解为可逐步优化的子问题,配合异步奖励计算架构,不仅让模型学会了「三思而后行」,还实现了约 20% 的训练加速。

聚焦长程任务规划与输出格式标准化。针对传统强化学习在长序列规划中稳定性差、收敛慢的问题,创新提出 Step-Augumented Group Relative Policy Optimization(Step-GRPO)方法(图 4):在任务规划时,随机引入 1-3 步前置规划步骤作为「引导先验」(Guided Precursors),将复杂长任务分解为可逐步优化的子问题。例如在「寻找画笔」任务中,通过注入「导航至设备架」、「定位画笔」等前置步骤,帮助模型建立步骤间的依赖关系,提升规划连贯性。

同时,为提升训练效率与奖励可靠性,EmbodiedBrain 设计了多维度奖励系统:

1. 指令遵循任务:基于答案与真值的匹配度计算正确性奖励;

2. 视觉感知任务:接地与检测任务采用加权 IoU 评分,计数任务采用数值匹配度;

3. 空间感知任务:区分选择题与描述题,结合语义一致性与简洁性评分;

4. 任务规划任务:采用「规则奖励(0-1 分,评估 XML 格式完整性、动作集合规性)+GRM 奖励(0-1 分,Qwen3-30B-A3B 评估规划合理性)」的双重机制,平衡格式规范性与规划逻辑性。

此外,通过异步奖励计算架构,将 GRM 推理与 RL 训练解耦,实现约 20% 的训练加速,且无性能损失。



表 1:不同数据混合配置下冷启动监督微调(SFT)性能评估(所有数值单位为 %)

评估体系:三维基准与开源环境构建真实能力校验


为全面、客观验证模型性能,EmbodiedBrain 构建了包含通用多模态能力、空间感知、端到端仿真规划的三维评估体系,覆盖 14 项主流基准测试,彻底解决传统离线评估的局限性。

多维度基准设计与性能表现

1. 通用多模态能力评估(5 项基准):采用 MM-IFeval(指令遵循)、MMMU(跨学科推理)、MMStar(多模态综合推理)、AI2D(图表理解)、OCRBench(图像文本推理),全面检验模型的基础多模态能力。实验结果(表 2)显示,EmbodiedBrain-32B 在 MM-IFeval 达 46.98%,较 Qwen2.5-VL 32B(46.66%)与 RoboBrain 2.0 32B(39.75%)显著领先;在 MMStar 达 65.80%,超越同类模型,证明其在保留通用能力的同时,实现了具身场景的专项提升。



表 2:EmbodiedBrain 与先前模型在 14 个不同基准测试上的性能对比。每个基准测试组中最高分数以粗体突出显示。

2. 空间感知能力评估(4 项基准):通过 Blink(空间关系理解)、CV-Bench(3D 物体属性推理)、EmbSpatial(第一视角空间关系)、ERQA(端到端多模态推理),检验模型对三维空间的理解能力。表 2 数据显示,EmbodiedBrain-7B 在 Blink 达 88.11%,较 RoboBrain 2.0 7B(62.94%)提升 39.99%;32B 版本在 CV-Bench 达 83.64%,EmbSpatial 达 77.03%,均为所有测试模型最高,印证了其空间推理能力的优越性。

3. 任务规划能力评估(5 项基准):涵盖 EgoPlan-Bench、EgoPlan-Bench2、EgoThink 等公开基准,以及自主设计的 Internal Planning 基准与 VLM-PlanSim-99 仿真基准。其中,Internal Planning 基准针对长程规划能力,采用「匈牙利算法计算动作匹配度 + LCS 算法计算顺序一致性」评估方法,EmbodiedBrain-32B 的 F1 分数达 90.50%,较 Qwen2.5-VL 32B(28.30%)提升超 2 倍。此外,为了拒绝「刷榜式」的虚高分数,团队提出并开源了包含 99 个手动验证家庭任务的 VLM-PlanSim-99 仿真基准,在最考验「真功夫」的端到端仿真规划中,EmbodiedBrain-32B 斩获了 46.46% 的成功率,几乎是 Qwen2.5-VL 32B (25.25%) 和 RoboBrain 2.0 32B (24.24%) 的两倍。这一数据有力证明了:EmbodiedBrain 不是一个只会做选择题的模型,而是一个真正能干活的具身大脑。



图 5:EmbodiedBrain 的空间推理示例

典型案例验证:从空间推理到端到端执行

在空间推理任务中(图 5),EmbodiedBrain 能够精准回答「物体相对位置」、「目标物体计数」、「空间关系判断」等问题,例如正确识别「车门在左侧」、「手中物品为鸡蛋」,展现出对复杂空间线索的整合能力。



图 6:EmbodiedBrain 为「在水槽清洗苹果后将其放入冰箱」任务生成的成功 11 步规划定性示例。该模型正确识别并执行了两个连续子目标:(1) 步骤 1-6:获取物体、将其置于水槽并清洗;(2) 步骤 7-11:拿起清洁后的物体并将其存放在冰箱中。

在任务规划案例中,针对「烘焙糕点设置计时器」任务, EmbodiedBrain 正确选择「安装计时器」动作,而 RoboBrain 2.0 与 Qwen2.5-VL 分别选择错误的「搅拌面糊」、「预热烤箱」;针对「清洗碗具并冷藏」任务,模型生成 11 步完整执行序列(图 6),从「导航至碗具→放入水槽→清洗→导航至冰箱→存放」,每一步均符合物理逻辑与任务流程,实现端到端闭环。

开源共享与未来展望:赋能具身智能生态发展


作为面向全球科研社区的开放成果,中兴团队已将 EmbodiedBrain 的全部训练数据、模型权重与评估方法开源(https://zterobot.github.io/EmbodiedBrain.github.io),同时开源了创新的 VLM-PlanSim-99 仿真环境,为具身智能领域提供了统一的基准平台与工具链,有效解决了现有研究中「数据封闭」、「评估标准不一」的痛点。

未来,EmbodiedBrain 将重点推进两大方向:一是拓展至多智能体协同任务,探索多智能体间的分工、通信与协作机制;二是研究领域随机化技术,提升模型在不同真实机器人平台(如家庭服务机器人、工业协作机器人)上的适配性,推动具身智能从仿真环境走向实际应用。

中兴星云大脑团队以 EmbodiedBrain 为契机,不仅在学术层面突破了具身智能任务规划的性能边界,更在产业层面为 AGI 落地物理世界提供了可复用的技术框架。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。