当前位置: 首页 » 资讯 » 新科技 » 正文

弯道超车?国产具身,千小时人类数据激发智能涌现

IP属地 中国·北京 机器之心Pro 时间:2026-03-05 14:17:01

编辑|张倩

导读:近日,位于中关村的深度机智全球首次使用全新范式——人类学习,在多个国际 Benchmark 上取得 SOTA,史无前例地使用全新架构(仅使用人类第一视角数据、零真机数据)击败 Physical Intelligence 和英伟达等头部巨头二十多个百分点并在两会开幕首日被央视报道。而这一全新架构的诞生,得益于团队在人类学习路线上一年多的全力积累。无独有偶,近期英伟达也发布了人类学习的初步尝试。



当国内具身智能领域还在争论真机数据和仿真数据哪个更有效时,硅谷却在悄悄达成另一项共识。

农历新年刚过,英伟达就发布了一项重磅成果 ——EgoScale。这是一个将人类灵巧操作直接「传授」给机器人的全新框架。

研究人员给大模型喂了超过 2 万小时的人类第一视角视频。结果证明:只要不断增加人类的示范数据,机器人的操作能力就能稳步提升。论文的第一作者更是直接点破了这层窗户纸:「提升机器人灵巧性的关键,在于堆更多的人类数据,而不是机器人真机数据。



这不禁让人想起英伟达年前的另一项王炸 ——DreamDojo。那个用 4.4 万小时人类第一视角视频训练出来的模型,展现出了极强的「举一反三」能力。即使面对完全陌生的物体和环境,机器人也能像熟练工一样自如应对。原因其实很简单:人类见过它们,而模型学习了人类的视角。



其实,在硅谷,这些发现并不令人意外,因为巨头们对「人类第一视角数据」的押注早已开始。大家所熟知的公司 —— 特斯拉、Figure、Physical Intelligence、Generalist AI、1X、BuildAI、Skild AI—— 有的明确表示正在大规模采集这类数据构建基座,有的即使没有明确说明,也透露出自己的模型采用了人类数据。去年下半年开始,这股风潮就已成势。这次英伟达,也不甘心落后。



人类第一视角数据示例

这种「默契」的背后,藏着这些前沿公司对于机器人「智能」根源的核心判断 ——真正的机器人智能始于对「物理常识」的理解

Generalist AI 是这一判断最激进的践行者:这家由前 Google DeepMind 核心科学家 Andy Zeng 参与创立的公司,凭借 27 万小时人类数据逼近机器人领域 Scaling Law,他们甚至将物理常识称为机器人学中的「暗物质」—— 其特点就是无处不在但又难以捕捉,而人类第一视角数据为物理常识的习得提供了天然的丰富材料。如果不先习得物理常识,具身模型很容易陷入「轨迹拟合」的死胡同,采集再多真机轨迹也很难泛化,毕竟纯模仿轨迹的机器人没有内化「为什么这样做」的物理直觉。

不过,这些讨论在国内似乎还没有引起足够重视,更不用提达成共识。这也是为什么,能和硅谷同频共振,甚至先于硅谷独立洞察并利用认知时间差抢跑的企业更加值得关注。

成立于 2025 上半年的深度机智便是其中最具代表性的一个。这家公司由北京中关村学院导师、中关村人工智能研究院(合称「中关村两院」)研究员陈凯创立,是这一国家级人工智能教育科研共同体孵化的首家公司。



深度机智创始团队早在 2024 年底就由智能眼镜的高速发展,敏锐觉察到人类第一视角数据即将迎来爆发,而此类数据蕴含的人类与物理世界交互的常识,是具身智能走向通用的破局关键。因此,他们毅然将筹码押在从「人类第一视角数据」解码「物理常识」,从而找到具身大模型的 scaling law。如今,他们已经成为国内最早布局这一赛道同时也跑得最快的公司。

而这种路线选择上的前瞻性,本质上源于团队对大模型通用智能的深刻认知,以及对如何真正将大模型的技术哲学应用在机器人上的长期探索。基于这种认知,深度机智已经搭建出一套涵盖数据、架构、算法的全栈技术矩阵

这套矩阵具体怎么运转?我们和陈凯博士聊了聊。

要做的不是「通用具身智能」

而是「具身通用智能」

对机器人研究有所了解的读者想必都听过一个词 —— 莫拉维克悖论。它指的是,对人类来说易如反掌的事情,对机器人来说却难如登天,比如简单地做个家务。Generalist AI 等公司认为,这一现象之所以存在,本质上是因为机器人还没有捕获到一种极度稀缺的「暗物质」—— 物理常识,也就是对力、摩擦、柔度和不确定性等物理属性的直觉。



然而,审视国内具身智能的发展,目前的竞争焦点却在另一个维度 ——使用大模型拟合真机或者仿真得到的轨迹数据,并期望通过轨迹数据的堆积达到「通用具身智能」,也就是我们目前常说的 VLA 路线。在这种思路的主导下,行业普遍的做法是:给大模型加上动作模块,然后疯狂投喂机器人的末端轨迹数据,让模型去拟合「观测→动作」的映射。

陈凯博士指出,在基座模型物理智能水平低下的情况下,这种「端到端拟合轨迹」的做法,在数据使用上是非常低效的,而且可学到的上限很低。因为这就像训练一匹智力水平不足的骡马,无论重复多少遍都只能执行有限的指令。所以很多模型背了几万小时轨迹,泛化能力依然僵化。

更棘手的是,单纯的动作拟合不仅无法产生对物理规律的直觉,还会破坏大模型本身强大的通用理解能力,导致严重的灾难性遗忘。这一现象在很多报告中都可以看到,违背了大家利用 VLM 强大泛化能力的初衷 —— 最突出的表现就是,大模型中常见的长程规划和推理能力,在当前的大多数 VLA 模型中大幅衰减,反而成了少数几家能拿得出手的宣传亮点。这无不凸显出当前「拟合轨迹」为主的训练哲学的根本问题。

既然拟合轨迹学不到常识,具身智能到底该怎么走?深度机智之所以能在赛道上抢跑,正是因为他们在底层路线上完成了认知视角的翻转:他们要做的不是「通用具身智能」,而是「具身通用智能」



这一语序调换绝非文字游戏,而是训练逻辑的彻底重构。在深度机智的理念中,智能是原生的,具身只是其在三维世界的表现形式。真正的大模型下一阶段,机器人应当首先具备思考、搜索、交流等通用能力,并且深刻理解物理世界的运作规律,最后才是在现实中去执行任务。

这就是深度机智最核心的技术策略:「Understanding first, action next」(先理解,后执行)」

这种哲学,完美地回应了 Generalist AI 提出的「物理常识」难题。但在哪里能找到包含海量物理常识的教材?在深度机智看来,人类第一视角数据,正是那把解锁物理常识的完美钥匙。

陈凯指出,他们和 Generalist AI 想法类似:既然人类和机器人处于同一个受固定定律控制的物理世界,那么人类完全可以被看作是一种「特殊的机器人本体」。人类用多大的力气拿起鸡蛋而不捏碎,用什么角度推开半掩的门 —— 这些由人类作为「特殊本体」产生的第一视角感知运动经验,天然蕴含着极其丰富的物理常识。

然而,如果仅仅使用人类动作的轨迹进行训练,而不是提取其中的物理交互知识,那就无异于买椟还珠。为了克服这一问题,深度机智在成立短短几个月内,就构建了复杂的数据增强管线,并且仍然在快速迭代中,用以高效榨取数据中的物理常识。

利用这种物理常识被榨取过的增强数据去「喂养」基座模型,深度机智跳出了轨迹拟合的陷阱,换来了数据效率的质变:用千小时规模人类第一视角视频,就能超过别人用几万小时真机数据才能达到的泛化性。同时,他们也在模型架构和算法方面进一步优化,以确保大模型在长出「具身肌肉」的同时,绝不丧失原有的「通用灵魂」。

一套开始显现复利效应的技术组合

路线确定之后,深度机智面临一些更实际的挑战:数据怎么转译、架构怎么设计、训练目标怎么设定,每一步都决定着「先理解,后执行」能否跑通。

过去一年,团队围绕这三个环节搭建出一套全栈矩阵,并用三组对照实验验证了路线的有效性:他们只加人类第一视角数据,验证数据方法论;只改架构,验证训练方法论;只调算法,验证对齐方法论。最后,这些方法汇总到一起,他们训练出了成功率远超行业标杆的 SOTA 模型。

PhysBrain:千小时人类视频 PK 数万小时真机

人类第一视角视频是个天然的数据富矿,它能大规模记录日常生活中的长期任务、人与物体的交互细节,以及手部的精细操作动态。但这里有个关键卡点:这些视频里确实藏着「怎么做」的规划逻辑和物理交互规律,但都是隐性的,机器人直接看可能看不懂。

所以,深度机智的当务之急,就是建立一个翻译管道,把这些视频中的隐性经验,提取成结构化的监督信号 —— 比如任务怎么拆解、关键状态是什么、手该怎么动、物体之间有什么约束、时空关系是怎样的。

Egocentric2Embodiment 翻译管道便是为此提出来的,其核心是把人类第一视角视频「转码」成机器人能学的结构化教材:通过多层次拆解任务规划、关键状态、手部动作和物理约束,确保时序逻辑连贯且每个判断都有画面证据支撑,最终输出带标准答案的 VQA 监督数据(就像一份带标准答案的习题集),确保机器人「知其然也知其所以然」,而不是瞎猜。



利用这套方法,他们构建了数据集 E2E-3M,并用该数据集训练了一个具身大脑 ——PhysBrain。在完全未出现在训练集中的 SimplerEnv 四个操作任务上,PhysBrain(8B 版本)以 67.4% 的平均成功率力压行业标杆、Physical Intelligence 的 Pi0.5,领先优势达 10%



要知道,PhysBrain 的微调数据仅为千小时的纯人类视角视频(即 E2E-3M 的体量)和部分通用 VQA 数据,不含机器人轨迹数据,就让模型掌握了空间结构和物体动力学特征,展现了良好的泛化性;相比之下,Pi0.5 则是用数万小时真机轨迹数据「堆」出来的。这有力地证明了:一个深刻理解物理世界规律的「聪明大脑」,其学习效率与泛化上限远超轨迹拟合。

更令人惊叹的是,PhysBrain 在仅学习「成功案例」的情况下,竟自发涌现出了灵活策略能力和自动纠错能力

在 SimplerEnv 的胡萝卜抓取任务中,模型接到的指令只是把胡萝卜放进盘子里。第一次夹取失败后,它并没有机械地重复同一个抓取动作,因为模型发现夹爪已经碰到了胡萝卜,于是顺势改为用夹子把胡萝卜往盘子方向推,一次推不进去,又加大力度重新推了一次。后来,发现这种方式依然无效,它又主动切换策略,重新调整姿态去抓取。要知道,「推」这个动作是没有包含在模型训练数据里的,它也没有看到过失败轨迹示范,这种表现更像是一种对物理交互的直觉式理解。



视频链接:https://mp.weixin.qq.com/s/OLpie_X3ChTfnaGuGtr8Ow

之前,这种「涌现」现象几乎只有 Physical Intelligence 和 Generalist AI 提到过,但前者将其归因于大量「失败轨迹」数据。相比之下,PhysBrain 仅凭对人类交互逻辑的底层理解,便实现了从「僵化执行」到「灵活应变」的本质跨越。

TwinBrainVLA:给机器人安上「不降智」的双脑

PhysBrain 证明了人类第一视角视频能喂出「聪明大脑」,但后续的优化问题随之而来:一个模型既要保持开放世界的通用理解,又要输出毫米级的精确动作,这两个目标在优化时其实是打架的。这是 VLA 领域的经典难题:微调学动作,会遗忘通用知识;保通用知识,又学不会精细操作。

为了破解这个「左右互搏」的困境,深度机智创新性地设计了「左右脑」同构架构 ——TwinBrainVLA。具体来说,他们首先引入一个同构但被冻结的 VLM 模块作为「左脑」,保持其开放世界理解能力不变;同时又引入一个可训练的「右脑」网络,专门处理机器人本体感知状态和低级动作策略。关键在于「左右脑」之间的信息交互 —— 通过他们提出的非对称混合 Transformer 机制(AsyMoT),右脑可以动态查询左脑的语义知识,但左脑的参数不会被下游任务污染。

这种设计的精妙之处在于:知识迁移而不遗忘。右脑学会动作控制时,左脑依然保有识别「易碎物品」这样的常识知识及推断约束条件的能力;当机器人遇到新场景,左右脑协同工作,既不会变成「只会抓杯子不懂杯子会碎」的纯执行机器,也不会停留在「知道要轻放但手不听使唤」的纸上谈兵阶段。

实验阶段,深度机智在完全未出现在训练集中的 SimplerEnv 四个操作任务上验证了 TwinBrainVLA 的有效性:在数据量远远小于 Pi0.5 的前提下,TwinBrainVLA 将原生的 Qwen3-VL-4B 能力有效迁移到机器人控制任务上,在 480 次独立测试中的平均成功率达到 64.5%,远超使用了数万小时轨迹数据的 Pi0.5(57.1%)。它证明了保住大模型的底子,本身就能换来更高的性能上限。



LangForce:强迫大脑「读懂指令」再动手

数据策略 work,架构也跑通了,但具体的训练过程中,深度机智还发现了一些算法上的 bug,「视觉捷径」就是其中之一。

这个问题是说,模型表现出一种类似「偷懒」的现象:由于训练数据中指令与画面高度相关,机器人往往直接跳过语言指令,只盯着视觉画面做动作(比如看见碗和抽屉就执行「把碗放进抽屉」)。一旦指令稍作改变(比如改为「把碗放到炉灶上」),哪怕画面再清晰,模型也会因为忽略指令而彻底翻车。

为了解决这个问题,深度机智改进了算法,强迫模型回答「这个动作比单纯看画面多提供了什么信息」。他们设计了一个双分支架构 —— 一个分支只能看画面生成动作,另一个分支能同时看到画面和指令,然后通过最大化两者的差异(即条件互信息),让模型被迫「解释」为什么要执行这个动作。只有当动作真正体现了语言指令的语义时,模型才能获得奖励;反之,如果动作仅靠画面就能预测,模型就会受到惩罚。这相当于在训练过程中给模型设置了一个「防偷懒」机制,确保它不能把语言指令当摆设。

这个小小的改进带来的增益非常明显:在不使用任何机器人真机轨迹数据进行预训练的情况下,以原生 Qwen-3-VL 为主干进行微调的模型在 SimplerEnv 的四个任务上实现了 66.5% 的成功率,领先 Pi0.5 将近 10 个百分点

这一结果表明,逼模型真正理解语言指令,而不是过拟合训练数据里的表面特征,是打破泛化瓶颈的关键。



当三条路径汇合,能力曲线开始抬升

前面三个「控制变量」实验表明,深度机智在数据、架构、算法层面提出的各个创新都能带来显著的增益,但真正的质变发生在它们「三合一」的时刻。

最近,深度机智在训练的新模型中融合了上述三种方法,发现新训练出的模型(即将发布的PhysBrain1.0在 SimplerEnv 测试中直接跑出了 79.8% 的平均成功率,超越了行业标杆 Pi0.5 达 22.7%,也超过了之前成绩最好的 Xiaomi-Robotics-0(79.2%),达到 SOTA。



这种领先优势在其他具有挑战性的场景中得到了进一步验证。在 RoboCasa 上,PhysBrain1.0 仅使用千小时人类第一视角数据做 VLM 增强,就达到 58.1% 成功率,拿下 SOTA。这个测试强调多阶段家庭场景操作,考察的是长程规划与稳定执行能力,结果说明模型已具备真实场景落地的潜力。



同时,深度机智还观察到,虽然模型使用的是人类第一视角视频和少量 ALOHA 机器人轨迹数据进行训练,但在另一个机器人真机平台 ——Franka 上,它也能实现接近 100% 的抓取成功率,这说明模型了具备业界少见的跨本体泛化能力

从基础操作到复杂协同,再到泛化迁移,PhysBrain1.0 基本实现了全线领先。在 3 月底的中关村论坛上,PhysBrain1.0 将正式亮相,相关成果也将开源。

当能力上限被抬高

竞争才真正开始

如果把视线拉回到整个行业,就会发现一个颇为微妙的错位。

一边是机器人本体快速迭代,关节更灵活,控制更精准;另一边,大脑却始终被数据瓶颈卡住。仿真派和真机派争论不休,但两条路线都绕不开同一个隐忧:当模型只能在机器人的闭环视角里反复拟合轨迹,多样性和信息密度都极为有限,很难真正长出对物理世界的直觉。

深度机智的思路,更像是大模型出现后机器翻译的那次代际跃迁。早期翻译系统靠规则和对齐表修修补补,效果始终有限;直到模型开始掌握语言的底层结构,质量才出现质变。具身智能也一样,与其在「观测 → 动作」的映射上死磕,不如先让模型通过人类第一视角视频习得物理世界的「通用语法」。当常识内化之后,执行反而成为理解的自然外显,数据效率因此出现数量级的提升。

这种认知时差带来的先发优势,正在沉淀为一整套技术闭环:从人类视频的结构化转译,到左右脑异构架构,再到针对语言与动作对齐的训练算法,彼此咬合。结果不只是单点指标领先,而是一条成本结构更优、规模化门槛更低的路径。高数据效率叠加对物理常识的系统性建模,使得后来者很难仅靠堆算力或堆真机轨迹在短期内追平。

接下来,深度机智计划在 2026 年上半年把人类第一视角数据规模推进到百万小时量级。在这个数量级上,问题或许不再是「机器人能不能完成某个任务」,而是物理常识的 Scaling Law 能否完全显现。



人类视角数据采集现场。工人可以边工作边采集,多样性和信息密度都足够丰富,而且采集成本低。

如果答案是肯定的,那么具身智能的拐点,可能会比很多人预想得更早到来。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。