7 月 22 日,字节跳动 Seed 团队发布全新 VLA 模型 GR-3,支持高泛化、长程任务和柔性物体双臂操作。同时亮相的还有通用双臂移动机器人 ByteMini。
Seed 团队发布的 GR-3 和 ByteMini 都有什么亮点?其中,GR-3 具备泛化到新物体和新环境的能力,能理解包含抽象概念的语言指令,还能够精细地操作柔性物体。通过少量的人类数据即可实现高效微调,从而快速且低成本地迁移至新任务,以及认识新物体。这与此前需要大量机器人轨迹训练的 VLA 模型不同。
得益于改进的模型结构,GR-3 能有效处理长程任务并进行高灵巧度操作,包括双手协同操作、柔性物体操作以及融合底盘移动的全身操作等。
而这些能力是通过一种多样的模型训练方法实现的:除遥操作机器人收集的高质量真机数据外,团队还经过用户授权,征集了基于 VR 设备的人类轨迹数据,以及公开、可用的大规模视觉语言数据进行联合训练——多样性数据的融合是 GR-3 区别于现有 VLA 模型的亮点之一。
在这两款产品中,GR-3 的定位是「机器人大脑」,而 ByteMini 就是为其设计的配套机器人。
ByteMini 作为一款具备高灵活性、高可靠性的通用双臂移动机器人,是专为 GR-3 这颗「大脑」打造的「灵活躯体」。
这台机器人全身具备 22 个自由度、其中搭载了无偏置 7 个自由度机械臂。观察细节可以看到,机械臂手腕采用球形设计,可以实现在狭小空间的中完成各种精细操作。
在感知层面,ByteMini 搭载多颗摄像头,2 个手腕的摄像头看细节,头部摄像头看全局。运动层面,ByteMini搭载了全身运动控制(WBC)系统。并且 ByteMini 作为机器人本体搭载 GR-3 模型,可高效在真实环境中处理复杂任务。
GR-3 在各类任务中展现出了三个特点,分别是「心灵」、「手巧」和「泛化好」。
在超长序列(子任务数 ≥ 10)的餐桌整理任务中,它能高鲁棒性、高成功率地完成任务,并严格跟随人类分步指令。面对多件同类物品(如多个杯子),GR-3 能按指令将他们「全放进垃圾桶」,若指令无效(如餐桌上没有蓝色的碗,指令为「把蓝色碗放进篮子」),GR-3 能准确判断并保持不动。
在复杂灵巧的挂衣服任务中,可控制双臂协同操作可形变柔性物体,还能鲁棒识别并整理不同摆放方式的衣服,衣服摆放混乱也能稳定应对。
在各类物体抓取放置任务中,能泛化到抓取未见过的物体,且理解包含复杂抽象概念的指令,比如在挂衣服过程中能泛化到训练数据中未包含的短袖衣物。
在技术上,GR-3 采用 MoT 的网络结构,把「视觉-语言模块」和「动作生成模块」结合成了一个 40 亿参数的端到端模型。数据训练方面,GR-3 突破了传统机器人只学 「机器人数据」 的局限,采用三合一数据训练法,在训练中能够同时从遥操作获取的机器人数据、人类 VR 轨迹数据、公开可用的图文数据三种数据源中学习知识。
据悉,字节跳动 Seed 团队后续计划扩大模型规模和训练数据量并且引入 RL 方法,进一步提升泛化性和突破现有模仿学习的局限。
泛化能力作为衡量 VLA 模型成色的关键指标,能让机器人在复杂多变的真实场景中突破边界,快速适应新任务。在机器人公司陆续推出 VLA 模型、在「机器人大脑」端不断发力的过程中,泛化能力无疑是研发的重点之一。