当前位置: 首页 » 资讯 » 新科技 » 正文

宇树开源UnifoLM-VLA-0大模型,助力通用人形机器人操作

IP属地 中国·北京 编辑:顾青青 IT之家 时间:2026-01-30 04:01:16

IT之家 1 月 29 日消息,宇树今日宣布开源 UnifoLM-VLA-0 大模型。

据介绍,该模型是 UnifoLM 系列下面向通用人形机器人操作的视觉-语言-动作(VLA)大模型,旨在突破传统 VLM 在物理交互中的局限,通过在机器人操作数据上的继续预训练,实现了从通用“图文理解”向具备物理常识的“具身大脑”的进化

针对操作类任务中对指令理解与空间感知的高要求,模型通过继续预训练深度融合了文本指令与 2D/3D 空间细节,增强了模型的空间感知能力。

构建了全链路动力学预测数据,模型具备更好的任务泛化性。在真机验证中,仅需单一策略即可高质量完成 12 类复杂的操作任务。

基于 Qwen2.5-VL-7B 开源模型,宇树构建了覆盖机器人与通用场景的多任务数据集,并开展持续预训练。该数据集涵盖 2D 检测与分割、任务层级分解、3D 目标检测、空间位置推理及轨迹预测等多维数据,有效提升了模型对几何空间与语义逻辑的对齐能力。

针对操作类任务,宇树对开源数据集进行了系统化清洗,最终仅利用约 340 小时的真机数据,进行离散动作的预测训练。在此基础上,模型集成了动作分块预测,以及前向与逆向动力学约束,实现对动作序列的统一建模,从而使 VLM 具备对机器人与物体物理交互规律的深度理解能力,并支持长时序动作规划与决策。

基于上述构建的数据集开展持续预训练后,宇树获得了 UnifoLM-VLM-0。该模型在多类任务场景下展现出显著增强的空间推理能力与可靠的多模态感知性能,相关零样本测试示例如下:

宇树在三个空间理解基准上对模型进行了评估,结果显示:模型在空间感知与理解能力上较 Qwen2.5-VL-7B 有显著提升,并且在 "no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。

宇树在 UnifoLM-VLM-0 模型的基础上集成了动作预测头 (ActionHead),从而构建出 Uni-foLM-VLA-0。经由仿真环境与真机实验的多任务训练验证,结果显示该模型具备单模型处理多任务的通用能力,在 LIBERO 仿真基准测试中,宇树的多任务模型取得了接近最优的性能。

在宇树 G1 人形机器人平台上,宇树构建了覆盖 12 类复杂操作任务的高质量真机数据集,并基于此对 UnifoLM-VLA-0 进行单一策略网络的统一端到端训练。真机实验结果表明,该模型能够在同一策略 checkpoint 下,稳定完成全部 12 项任务,在外部扰动条件下仍保持良好的执行鲁棒性与抗干扰能力。

项目主页:https://unigen-x.github.io/unifolm-vla.github.io/

开源代码网址:https://github.com/unitreerobotics/unifolm-vla

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。