![]()
![]()
让人形机器人能够像人一样完成装箱、搬运、推车等移动操作任务,一直是人们对具身智能的期待。近日,来自香港大学、智元AGIBOT、复旦大学和上海创智学院的联合研究团队提出了WholeBodyVLA,一种面向真实世界的人形机器人全身Vision–Language–Action 框架。该工作基于智元灵犀X2研究发布,将VLA(视觉语言动作模型)扩展至双足人形机器人的全身控制,验证了其在全身移动操作任务中的可行性。
与原地操作相比,移动操作的难点不在于单一技能,而在于行走与操作必须在同一任务中长期、稳定地协同发生。围绕这一挑战,WholeBodyVLA 总结出限制移动操作发展的两个核心问题:真机数据稀缺和运动执行中的不稳定性。
![]()
相比原地操作,人形机器人在移动操作任务中的数据采集要“贵”得多。往往需要不止一个数采员同时遥操机器人上半身进行操作、下半身完成行走,这通常只能通过混合方案实现(例如 VR 控制上半身、遥控器控制下半身),这种方式操作流程长、效率低;或者使用全身动捕系统,但价格高昂。
相比纯粹的操作,移动操作对运动精准性和稳定性的要求高的多,任何偏离都可能导致目标操作物体脱离相机视野和工作空间。即使VLA输出了正确的运动指令,下半身控制器仍然有概率执行失败,例如出现走歪、踉跄等现象。
![]()
为了解决这些挑战,研究团队提出了WholeBodyVLA,并引入了两个关键创新:从人类视频中学习和面向移动操作的RL控制器。前者是WholeBodyVLA 通过从第一视角人类视频中学习移动与操作的潜在动作,操作相关的潜在动作则基于 AgiBot World 数据集进行建模,后者是通用连续运动控制目标简化为一组离散运动指令,仅保留移动操作必要的强化学习训练目标,从而显著提升了控制器在运动执行时的稳定性。
研究团队在 智元灵犀X2人形机器人上进行了大量真机实验验证,发现 WholeBodyVLA 具备大范围、长程移动操作任务,距离泛化性和操作泛化性,地形泛化性。总的来说,WholeBodyVLA 展示了 VLA 扩展到双足人形机器人自主全身控制的可行路径。





京公网安备 11011402013531号