1月29日,宇树科技开源其面向通用人形机器人操作的VLA大模型UnifoLM-VLA-0。
据介绍,针对操作类任务中对指令理解与空间感知的高要求,模型通过继续预训练深度融合了文本指令与2D/3D空间细节,增强了模型的空间感知能力。同时,模型构建了全链路动力学预测数据,模型具备更好的任务泛化性。
基于Qwen2.5-VL-7B开源模型,宇树构建了覆盖机器人与通用场景的多任务数据集,并开展持续预训练。针对操作类任务,团队还对开源数据集进行了系统化清洗,最终仅用约340小时的真机数据,进行离散动作的预测训练。
宇树表示,经由仿真环境与真机实验的多任务训练验证,结果显示该模型具备单模型处理多任务的通用能力,在LIBERO仿真基准测试中,多任务模型取得了接近最优的性能。在真机验证中,仅需单一策略即可高质量完成12类复杂的操作任务。(澎湃新闻记者 秦盛)
![]()





京公网安备 11011402013531号