7月22日,字节跳动Seed官方公众号宣布推出一款名为GR-3的全新Vision-Language-Action Model(VLA,视觉-语言-动作)模型。据称,该模型拥有强大的泛化能力、对抽象概念的理解以及精细操作柔性物体的能力。
GR-3:多样数据训练 高效解读指令
GR-3模型的核心优势在于其出色的泛化能力和对抽象概念的理解。与传统的VLA模型不同,GR-3通过少量的人类数据即可实现高效微调,从而快速且低成本地迁移至新任务,认识新物体。这一特性使得GR-3在面对未知环境和物体时,依然能够保持高效稳定的操作性能。
具体而言,GR-3采用了Mixture-of-Transformers(MoT)的网络结构,将“视觉-语言模块”和“动作生成模块”紧密结合,形成了一个拥有40亿参数的端到端模型。这种设计使得GR-3能够直接根据摄像头捕捉的画面和收到的语言指令,迅速计算出下一步的动作。例如,在听到“收拾餐桌”的指令后,GR-3能够自动完成“打包剩菜、收拾餐具、倒垃圾”等一系列连续动作。
GR-3的另一大亮点在于其三合一的数据训练法。传统的机器人模型往往依赖于大量的机器人轨迹数据进行训练,而GR-3则突破了这一局限,通过结合遥操作机器人数据、人类VR轨迹数据以及公开可用的图文数据,实现了对模型性能的显著提升。
遥操作机器人数据为GR-3提供了基础的操作能力,确保其在完成“捡杯子”、“挂衣服”等基础任务时的稳定性和准确性。人类VR轨迹数据的引入,则使得GR-3能够以极低的成本快速学习新任务。通过VR设备采集的人类轨迹数据,GR-3在效率上比传统遥操作数据收集方法快了近一倍。此外,公开可用的图文数据极大地提升了GR-3的泛化能力,使其能够认识更多物体,理解更复杂的抽象概念。
ByteMini机器人:GR-3的“灵活躯体”
为了充分发挥GR-3模型的强大能力,字节跳动Seed团队还设计了一款名为ByteMini的通用双臂移动机器人。ByteMini机器人拥有22个全身自由度,以及独特的手腕球形设计,使其能够像人类一样灵活操作。在狭小空间内,ByteMini能够完成各种精细操作,如收纳盒、抽屉内的物品整理等。
ByteMini机器人搭载了全身运动控制系统,动作既快速又稳定,同时避免了传统机器人那种“硬邦邦”的碰撞感。在抓取纸杯等易碎物品时,ByteMini能够自动调整力度,避免捏碎物品。此外,ByteMini还配备了多颗摄像头,其中手腕摄像头负责捕捉细节,头部摄像头则负责观察全局,确保机器人能够“眼观六路”,准确执行各项任务。
在实际应用中,GR-3模型展现出了卓越的性能。在通用拾取放置任务中,GR-3面对训练中未见过的物品和环境时,依然能够保持高指令遵循率和成功率。例如,在从未见过的卧室书桌、超市柜台等场景中,GR-3的性能几乎无衰减,展现出了强大的环境适应和泛化能力。
在长程餐桌清理任务中,GR-3仅凭“收拾餐桌”这一总指令,就能自主完成全流程操作,平均完成度超过95%。同时,GR-3还能严格跟随人类发出的分步指令,准确执行各项任务。在柔性衣物精细操作任务中,GR-3同样表现出了出色的灵活性和鲁棒性。无论是长袖还是短袖衣物,GR-3都能稳定地完成挂衣服任务。
持续探索,迈向通用机器人“大脑”
字节跳动Seed团队计划进一步扩大模型规模和训练数据量,提升GR-3对未知物体的泛化能力。同时,团队还将引入强化学习(RL)方法,突破现有模仿学习的局限,让机器人在实际操作中不断“试错”,从成功和失败中自主学习调整动作与策略(比如物体滑落时如何快速重新抓取等)。
GR-3模型的发布,无疑为机器人技术的发展注入了新的活力。字节跳动Seed团队期望,通过持续的研究和探索,GR-3能够成为迈向通用机器人“大脑”的重要一步。展望未来,他们希望机器人操作大模型能够真正进入人们的日常生活,成为帮助人类处理各种事务的通用机器人助手。
(经济观察网 万佳/文)
免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。