智东西
作者 李水青
编辑 云鹏
智东西8月11日报道,在世界机器人大会上,阿里达摩院宣布开源其自研的 VLA(视觉-语言-动作) 模型RynnVLA-001-7B、世界理解模型RynnEC、以及机器人上下文协议RynnRCP,推动数据、模型和机器人的兼容适配,打通具身智能开发全流程。
达摩院将MCP(模型上下文协议)理念引入具身智能,首次提出并开源RCP(Robotics Context Protocol)协议,推出一套完整的机器人服务协议和框架RynnRCP。它类似于一个“万能连接器”,能够打通从传感器数据采集、模型推理到机器人动作执行的完整工作流,目前已支持Pi0、GR00T N1.5等多款热门模型以及SO-100、SO-101等多种机械臂。
RynnRCP是一套完整的机器人服务协议和框架,主要由两个模块组成:RCP框架和RobotMotion。
RCP目前实现的主要功能包括:提供机器人本体及相关传感器能力的抽象,对外提供各种功能,并通过标准协议、不同的传输层和模型服务进行交互;RobotMotion作为云端推理与机器人本体控制之间的桥梁,将离散的低频推理命令实时转换为高频的连续控制信号,驱动机器人完成运动任务。此外,它还配备了运动规划与控制所需的工具包,助力具身智能融入物理世界。
▲机器人上下文协议RynnRCP开源页面截图
开源地址:
https://github.com/alibaba-damo-academy/RynnRCP
RynnVLA-001是达摩院自研的基于视频生成和人体轨迹预训练的视觉-语言-动作模型,能够从第一人称视角的视频中学习人类的操作技能,隐式迁移到机器人手臂的操控上。
如下面动图所示,当研发人员告诉机械臂把草莓放到手掌上,机械臂能够理解语言的意思,随后在一些物品中识别出草莓,拿起并放到正确的位置。
▲RynnVLA-001演示
研发人员在同一数据集上对基线进行了微调,以评估其性能。对比结果如下图所示,RynnVLA-001在多项具体的捡拾物品放置测评中都取得了最高分成绩。
▲RynnVLA-001测评结果
研发团队提供了如何使用开发者自己的LeRobot数据(第 2 阶段和第 3 阶段)对模型进行微调的说明,后续还将发布如何从零开始训练模型的说明。
▲VLA模型RynnVLA-001开源页面截图
开源地址:
https://github.com/alibaba-damo-academy/RynnVLA-001
世界理解模型RynnEC将多模态大语言模型引入具身世界,赋予了大模型理解物理世界的能力。该模型能够从位置、功能、数量等11个维度全面解析场景中的物体,并在复杂的室内环境中精准定位和分割目标物体,建立连续的空间感知并支持灵活交互。
RynnEC是一种专为具身认知任务设计的视频多模态大型语言模型(MLLM),如下图所示,能够对现实世界中几乎无限的事物进行识别和认知分析。本次,达摩院推出了RynnEC-2B 模型、RynnEC-Bench和训练代码。
▲RynnEC演示
如下图所示,RynnEC-2B在Direct Seg(直接分割)、Situational Seg(情境分割)、Material(材料)、State(状态)、Surface(表面)等对象认知测试中超越了Gemini-2.5-Pro、Qwen2.5-VL-72B等顶尖模型,并在空间认知测试中大幅超越了这些模型。
▲RynnEC-2B测评结果
聚焦RynnEC-Bench基准,其在两个关键领域对模型进行评估:object cognition(对象认知)和spatial cognition(空间认知),评估总体22体现的认知能力。
▲世界理解模型RynnEC开源页面截图
开源地址:
https://github.com/alibaba-damo-academy/RynnEC
结语:打通机器人从感知到执行的完整链路
达摩院此次开源的“三件套”——贯通硬件的RynnRCP协议、拟人化操控的RynnVLA模型与理解物理世界的RynnEC模型,如同为具身智能开发者提供了一套“乐高式工具包”。
它们通过标准化连接、拟人化控制与空间认知三大突破,打通了机器人从感知到执行的完整链路,有望在之后迭代的过程中大幅降低开发门槛,加速具身智能在工业、家庭等场景的规模化落地,让机器人真正“看得懂世界,动得像人类”。