当前,具身智能正面临高质量训练数据严重不足的发展困境。传统的动作捕捉与遥操作技术采集数据,虽能实现1:1动作复刻,但成本高昂——单台数采设备从几万到十几万不等,且建设大型数采中心投入巨大。 更关键的是,传统方式采集的数据通用性差,单一设备采集的数据通常仅服务于该设备自身,形成“数据孤岛”,难以在不同机器人本体间迁移复用。
面对这一困境,行业头部企业纷纷转向互联网视频这一潜力数据源。今年5月,特斯拉工程主管Milan Kovac公开表示,Optimus将告别传统动作捕捉和远程操控,转向直接从互联网视频中学习。互联网视频资源丰富、成本低廉,且蕴含着人类与物理世界交互的高维信息。如何将这些非结构化的2D视频数据,转化为机器人可理解、可执行的训练数据,成为技术突破的关键。
枢途科技在成立之初就聚焦在视频提取具身数据技术上,自主研发的SynaData数据管线,实现了从互联网单目视频中提取多模态、高精度具身训练数据的技术突破。SynaData通过视频数据升维、跨域重定向retargeting等技术,将普通2D视频转化为包含轨迹、物体网格等信息的具身训练数据。相比传统方式,SynaData成功将综合采集成本降至行业平均水平的千分之五。以“拿取外卖袋”任务为例,SynaData从人手拿取视频中提取数据,将模型的抓取成功率提升至88%以上。
SynaData的核心亮点在于服务第三方,打造开放生态。区别于其它企业将视频数据tokenize并用于自有模型,枢途科技定位“具身数据基础设施建设者”,从视频中提取的多模态具身数据已验证了清华RDT、PI π0、智元UniVLA、EquiBot等主流VLA模型。
目前,SynaData已完成全管线技术验证,处理了数千小时多场景视频,产出涵盖抓取、放置、精细组装等逾百种任务场景的数据集。
未来,枢途科技将与行业伙伴持续共建开放数据生态。枢途计划于2025年第四季度发布首个基于真实场景视频的多模态具身开源数据集,推动行业数据标准建设。公司还计划将适配的机器人本体类型扩展至100种以上,覆盖人形机器人、灵巧手、协作机械臂等各类结构。
枢途科技CTO林啸表示:“数据决定上限,模型逼近上限。SynaData让机器人得以利用海量视频数据,通过‘观看’人类视频学习技能,真正突破具身模型能力边界。” 随着SynaData系统的不断完善,具身智能领域将迎来低成本、高质量、海量数据的新时代。
枢途科技将以视频数采技术加速具身模型发展,驱动更多机器人在复杂非标场景的规模化落地,Make Robots Work。