当前位置: 首页 » 资讯 » 新科技 » 正文

27万小时的真实数据,终于验证了机器人领域的Scaling Law?

IP属地 中国·北京 DeepTech深科技 时间:2025-11-05 22:09:10

去年年底 Physical Intelligence 发布机器人基础模型 π0 时,其团队成员将其比作“机器人领域的 GPT-1”。就像 OpenAI 在 2018 年推出第一代语言模型时开启了一个时代,π0 预示着机器人智能也许会走上类似的路:模型越大、数据越多,能力就越强。但在那个时候,这更多还只是个愿景。机器人领域的 Scaling Law 始终没有被明确建立。

2025 年 11 月 4 日,由前 Google DeepMind 高级研究员 Pete Florence 创立的初创公司 Generalist AI 为这一问题给出了迄今为止最有力的答案。该公司发布的 GEN-0 模型不仅展示了机器人基础模型的扩展能力,更重要的是,首次在机器人领域观察到了一个此前只在语言模型训练中出现的关键现象:模型僵化(ossification)。这一发现表明,机器人领域的智能确实存在可量化的扩展定律,但其运作方式比我们想象的更加复杂。

物理智能的阈值之谜

在计算机视觉和自然语言处理领域,scaling laws 已经成为一个被广泛接受的现象。但在机器人领域,这样的规律一直未能建立,主要原因是缺乏足够规模的高质量数据,以及足够大的模型来验证这种关系。

尽管 MIT 和慕尼黑工业大学的研究人员在 2024 年通过对 327 篇论文的元分析发现机器人基础模型确实存在 scaling laws,但这些研究都是基于相对较小规模的模型和数据集。如果我们将模型规模推向数十亿参数,将训练数据推向数十万小时时,会发生什么?


图丨相关论文(arXiv)

GEN-0 的实验给出了一个意外的答案。研究团队发现,当将模型从 1B(十亿)参数扩展到 7B 参数的过程中,存在一个明显的相变点。1B 参数的模型在训练过程中很快就表现出僵化现象,即模型权重变得无法吸收新的信息,训练损失不再下降。这种现象此前只在语言模型的特定训练场景中被观察到,但那些模型的参数规模要小得多,大约在 10M(百万)量级。


(Generalist AI)

而当模型规模达到 6B 参数时,情况开始改变。这些模型能够有效地从预训练中受益,展现出强大的多任务能力。到了 7B 参数及以上,模型不仅能够内化大规模的机器人预训练数据,还能够仅通过几千步的后训练就迁移到下游任务。Generalist AI 已经将 GEN-0 扩展到 10B+ 参数规模,观察到随着规模增加,模型对新任务的适应越来越快,需要的后训练越来越少。

研究团队认为这一发现与人工智能史上一个著名的 Moravec 悖论(Moravec's Paradox)相呼应。1988 年,机器人学家 Hans Moravec 指出,对人类来说轻而易举的事情,比如感知和灵巧操作,对机器来说需要巨大的计算复杂度,而抽象推理这种人类觉得困难的事情,对机器反而相对简单。GEN-0 的实验结果为这个悖论提供了定量证据:物理世界的常识(physical commonsense)确实有更高的“激活阈值”,需要更大规模的计算才能涌现。


(Generalist AI)

这种可预测的扩展关系对工程实践有重要意义。研究团队可以用幂律公式预测:给定特定规模的预训练数据,在某个下游任务上投入固定的微调预算,最终能达到什么样的性能水平。以服装处理任务为例,他们可以估算需要多少预训练数据才能将动作预测误差降到特定阈值。这种预测能力让资源分配不再是赌博式的探索,而是有明确回报预期的投资。

Harmonic Reasoning:协调思考与行动

如果说扩展规律解决了能不能学的问题,那么 GEN-0 引入的 Harmonic Reasoning 则回答了“怎么学”。这是一个针对物理世界特性设计的训练机制,核心在于协调“思考”与“行动”之间的时间关系。

在语言模型中,让系统“多想一会儿再回答”相对容易,只需在生成回复前多运行几步推理。但物理世界不会暂停等待。当机器人面对需要精细操作的任务时,它既要实时响应环境变化,又要进行更高层次的规划。

传统的 System 1-System 2 架构试图将这两种过程分离,用快速反应系统处理即时响应,用慢速规划系统处理长期决策。但这种分离带来了接口设计的复杂性,也限制了系统的灵活性。

Harmonic Reasoning 采用了不同的思路。它将感知、思考和行动都视为在连续时间轴上异步发生的 token 流,通过训练让模型学会在这些流之间建立协调的相互作用。

模型在处理视觉输入的同时,可以生成“内部推理”的 token,这些 token 不会直接转化为动作,而是影响后续的决策;同时,模型持续输出动作 token 来控制机器人的关节。这种设计让模型可以在执行当前动作的同时思考未来步骤。

从展示的案例来看,这种能力在长程任务中表现明显。在组装相机套件的演示中,机器人需要完成一系列精细操作:将清洁布放入盒子、折叠纸板托盘、从塑料袋中取出相机、放入盒中、合上盒盖并插入细小的固定卡扣,最后丢弃塑料袋。整个过程持续超过一分半钟,模型从未依赖显式的子任务分解,而是在一个统一的推理流中完成全部步骤。

这种训练方式不依赖推理时的额外引导(inference-time guidance)。许多现有系统需要在部署时引入启发式规则或外部规划器来辅助决策,但 GEN-0 的所有能力都内化在预训练模型中。团队认为,这种端到端的学习路径是实现真正通用性的前提。就像语言模型不需要为每个应用场景单独设计提示一样,机器人模型也应该通过大规模预训练自然涌现出适应性。

二十七万小时的真实数据

长期以来,数据稀缺一直是机器人学习的主要瓶颈。相比于语言模型可以从互联网上获取数万亿 tokens 的文本数据,机器人数据的收集需要真实的硬件在物理世界中执行操作,成本高昂且难以扩展。

Generalist AI 在这个问题上的答案是:建立工业级的数据收集基础设施。GEN-0 在一个前所未有的数据集上进行预训练:270,000 小时的真实世界操作轨迹,收集自全球数千个家庭、仓库和工作场所。这个数据规模比目前公开的最大机器人数据集大了好几个数量级。


(Generalist AI)

二十七万小时的数据意味着什么?如果一个机器人一周工作七天、每天二十四小时不间断运行,也需要超过三年才能积累这么多经验。Generalist AI 通过在全球范围内部署数千个数据收集设备和机器人,实现了并行化的数据获取。

团队甚至为此铺设了专用网络线路,以支持从各个站点到云端的高带宽数据上传。在训练端,他们动用了数万个核心进行持续的多模态数据处理,压缩了数十 PB 的原始数据,使得训练系统每天能够消化相当于 6.85 年的真实世界操作经验。

但规模只是一方面,质量与多样性同样关键。团队进行了大规模的消融实验,对比了来自不同数据源和收集策略的预训练数据集对模型性能的影响。他们将数据分为三类:Class 1 是针对特定任务的演示数据,Class 3 是“什么都做”的开放式数据,Class 2 介于两者之间。实验结果显示,不同数据混合会导致模型呈现出不同的特性。

一些数据配置训练出的模型在预测误差和反向 KL 散度上都较低,这类模型更适合后续的监督微调。而另一些数据配置虽然预测误差较高,但反向 KL 散度低,表明模型的输出分布具有更高的多模态性,这对强化学习后训练更有利。

这些发现对数据收集策略有直接指导意义。Generalist AI 与多家“数据铸造厂”(data foundry)合作,在不同环境中采集数据。通过持续的 A/B 测试,他们可以评估各个合作伙伴的数据质量,并据此调整数据采购比例。

在博文附带的可视化工具中,研究人员展示了一个内部开发的数据探索系统。用户可以输入文本描述,系统会在预训练数据集的语义嵌入空间中定位到相关区域,并随机采样展示相关视频片段。这个工具不仅用于数据质量检查,也帮助团队理解“操作的宇宙”究竟包含哪些任务类型。从削土豆到穿针引线,从在面包店打包食品到在洗衣房整理衣物,GEN-0 的训练数据试图覆盖人类日常操作的全部光谱。

“让通用机器人成为现实”

Generalist AI 由三位来自 Google Deepmind 和波士顿动力的资深研究员成立。Pete Florence、Andy Zeng 和 Andrew Barry 虽然学术背景各异,但研究轨迹在过去几年中逐渐交汇,最终聚焦于让机器人学习像大语言模型那样规模化。

Pete Florence 在麻省理工学院攻读博士期间专注于视觉引导的操作,提出了 Dense Object Nets 等开创性工作,强调从原始感知到动作的端到端学习。加入 Google 后,他迅速转向大模型与机器人的融合,参与了 RT-2、PaLM-E、Code as Policies 等多个项目,探索用统一的大模型框架处理感知、理解和控制。


图丨 Pete Florence(Pete Florence)

Andy Zeng 则从机器人抓取和物体理解起步。他的代表作 TossingBot(一个能自主学习投掷不同物体的系统)曾获得了 RSS 2019 最佳系统论文奖提名。在 Google 期间,Andy 与 Pete 密切合作,联合发表了超过十七篇论文,研究覆盖从低层操作控制到高层语言推理的全链路问题。

Andrew Barry 带来了硬件与系统集成的经验。他在 MIT 期间专注于高速自主无人机导航,毕业后在波士顿动力工作了五年,参与 Spot 机器狗的机械臂项目研发。

三人见证了具身智能研究从分散突破走向系统化的过程,自大模型被引入机器人领域后,他们愈发认为创造通用机器人的时机在逐渐成熟,而真正需要的是重新关注数据、模型和硬件的交汇点。单靠从互联网上下载任何数据,都无法创造出能够与物理世界交互的快速、流畅、精确、反应灵敏的智能层。出于这一共识,他们决定成立 Generalist AI。而他们的目标就是“让通用机器人成为现实。”

正如团队在博客中指出的,GEN-0 或许标志着一个新时代的开始:具身基础模型的能力可以通过物理交互数据可预测地扩展。

不过,这项工作也留下了许多待解答的问题。Generalist AI 尚未公开 GEN-0 模型的架构细节、训练算法或代码。Harmonic Reasoning 的具体实现方式也仍然未知。数据收集的具体方法、质量控制流程、标注策略等关键细节也未披露。此外,虽然团队展示了一些表现出色的演示视频,但没有提供系统的成功率统计或与其他方法的详细对比,这使得很难准确评估模型的实际性能水平。

但无论如何,GEN-0 证明,通过持续扩大模型规模和高质量物理交互数据,机器人智能可以遵循与语言模型类似但又独特的发展轨迹。Moravec 悖论提醒我们,物理智能的激活阈值更高,但 GEN-0 证明了这个阈值是可以跨越的。

参考资料:

1.https://generalistai.com/blog/nov-04-2025-GEN-0

2.https://x.com/GeneralistAI/status/1985742083806937218

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。