上周一,我在深圳参加了一场机器人黑客松。
前一晚九点抵达时,我原本以为自己会是少数还在工作的那一批人。走进场地才发现,灯还亮着,地上已经支起一排排帐篷。机械臂没有停,选手们围在工位前采数据、训模型、盯评测结果。有人困得不行,就在场边睡一会儿,醒来继续干。
现场流传着一句话:“我可以歇着,卡不能歇。”
这是迄今为止全球最大规模的线下具身智能开发者大赛之一。
自变量为所有参赛队伍免费开放高质量数据集和相关数采设备,并提供训练环境和高性能双臂操作平台以及算力资源。
参赛队伍可以在 3 天内,完成从数据采集、模型训练到真机部署的整个闭环。而通常情况下,专业研究实验室完成类似搭建至少需要 6 个月。
主办方从大量候选任务中筛出了四类核心能力:抓取放置、语言理解、精细操作和长时序决策。对应到比赛里,选手可以选择套环、按指令分类水果、插电源线、拼写单词等任务持续攻关。最终成绩不只看有没有完成步骤,也看成功率、稳定性和泛化表现。
这个被极致压缩到 3 天的比赛,让具身智能行业的差距与机会同时显形。
3 天,两个大学生,就能做出一个学术论文里的视频 demo
3 天是什么概念?
按学术研究的节奏,一篇论文从实验到发表,往往要以年为单位计算。
但如果只看某个具体任务的完成效果——许多由 00 后大学生组成的团队,借助自变量提供的算力、数据和基础模型,只用两天时间,就能让机器人完成 pick-and-place 这类常见于论文和演示视频中的任务,做出一个“看起来很像那么回事”的 demo。
这正是这场黑客松最值得注意的地方:3 天既是一个令人兴奋的数字,也是一个容易制造错觉的数字。
先看它令人兴奋的一面。
自变量此次黑客松的赛制分为 A 榜和 B 榜两个阶段。A 榜任务公开,选手可以围绕明确目标进行训练和优化;B 榜则不会提前公布具体任务和数据分布,更侧重考察模型在真实环境中的泛化能力。
比赛前两天,选手们主要攻坚 A 榜任务,包括套环、按指令分类水果、插电源线、拼写单词等。这些任务的操作要求和 KPI 都非常明确。以“按指令分类水果”为例,水果种类固定,抓取点和放置点也基本固定,模型可以围绕一组相对稳定的条件反复训练,因此短时间内就能迅速提分。
自变量算法合伙人甘如饴提到,比赛第一天,大家的成绩普遍不高,套环任务的成功率大多只有 20% 到 70%;但到了第二天,很多团队已经迅速摸清了自己擅长的方向,开始集中优化,一些团队甚至在单一任务上出现明显过拟合,成功率逼近 100%。
这意味着什么?
它意味着,在今天的具身智能行业里,把一个模型快速调到“能完成某个具体任务”,已经不再像很多人想象中那么遥远。对解决方案提供商和落地工厂来说,这当然是一个足以提振信心的信号。过去,工业机器人切换一个任务,往往意味着漫长的预编程、仿真、工程调试和现场磨合;而现在,如果某些任务的适配周期真的可以被压缩到几天,即便这还远远不能说明“通用”,也足以改变很多人对机器人进入工厂、承担具体工作的预期。
但问题也恰恰出在这里。
一个任务能在几天内被迅速做出来,并不意味着模型的泛化性得到提高。
也正是在 A 榜成绩快速拉高、一些团队开始接近满分的时候,自变量放出了隐藏的 B 榜。
当任务不再已知,原本围绕单一目标优化出来的模型,很快暴露出局限。
此次比赛获得三等奖、来自南京邮电大学的参赛者袁浩宽对 InfoQ 表示,他们选择的是“按指令分类水果”任务。到了 B 榜阶段,比赛不仅新增了水果种类,还加入了干扰项,并改变了抓取与放置的空间结构。“之前针对 A 榜做的微调基本用不上了,只能回到 base model,重新采集更有多样性的真机数据。”
他们在现场补采了约 30 条随机摆放的数据,微调了约 1 小时、总计约 1 万步,但效果依然不理想,主要问题在于数据量和多样性都不够。
这也不是个别队伍的偶发问题,而是许多队伍在 B 榜阶段的共同反馈。针对单一任务做出高分并不算太难,但一旦任务开始引入泛化要求,比如增加水果种类、改变摆放方式,模型就很难稳定跟上。
在这场黑客松里我看到两件事。
一方面,任务适配的速度确实在变快,机器人进入真实场景的门槛正在被拉低;另一方面,哪些团队是在认真做 base model,哪些团队只是借助现成基座和任务微调做出表面成绩,也会以更快的方式被区分出来。
一个开源基座模型,加上一些现场采集的数据,再配几张算力卡,围绕特定任务做短周期微调,就有机会复现论文或宣传视频里的效果。
这样的结果当然不是毫无价值,它说明现有基座模型和工具链已经足以支撑某些任务的快速实现;但它也不应被误读为“模型已经具备通用能力”。因为这类 demo 的前提,往往是明确任务、固定环境和有限变量,而不是开放世界中的持续适应。
真正把具身公司拉开差距的,是谁拥有更强的 base model,谁能在任务变化、环境变化和连续执行中保持稳定。
也就是说,认真做基座模型的团队,与套壳做过拟合的团队,未来的差距只会越来越大。
如果说这场黑客松带来了什么最直接的教训,那就是:今天衡量一个模型,已经不能再满足于它有没有一段漂亮的真机 demo,而要看它能否在真机环境中承受多任务、陌生任务和连续任务的压力。
也正因为如此,国内越来越多厂商开始推出自己的真机评测体系和挑战赛。原力灵机有 RoboChallenge,智元有 AgiBot World Challenge,自变量则推出了 ManipArena。它们背后的共识其实很简单:如果不把模型从 demo 里拖出来,放到真机、多任务、带约束的环境里反复测,行业就很容易被演示效果牵着走。
当然,今天的许多榜单仍然很难做到绝对透明。为了降低参评方对泄密的担忧,不少测评体系不会强制公开模型归属,也会通过接口隔离的方式,让模型参数和代码本身不被直接暴露。
这种安排有现实合理性,但它也意味着,行业仍然需要一套更成熟的标准,去区分“针对任务打榜的能力”与“真正可泛化的能力”。
从这个意义上说,黑客松上那些两天就能做出来的过拟合结果,并不只是一个比赛现象,它更像一次提醒:行业应该对模型表现变得更警觉,也应该倒逼模型团队拿出更经得住真机和多任务压力的结果。
自变量的选择:不为垂直场景的快速落地,堆积针对性模型系统和工程补丁
赛场上的教训,也在某种程度上印证了自变量自己的思路。
对很多参赛队伍来说,比赛很快暴露出一个问题:后训练和参数微调可以补足一部分能力,但到了某个阶段,决定模型上限的仍然是基础模型本身。
基于这一判断,自变量在场景选择上没有选择更容易通过工程手段优化效果的场景,而是将家庭等更复杂的环境放在相对靠前的位置,希望在真实交互中积累数据,并据此持续迭代基础模型。
自变量 CTO 王昊在与包括 InfoQ 在内的媒体交流时表示,公司的核心方向是“保持基模不停往前迭代”。在他看来,团队当然可以去场景里做探索,验证基模能力,看看它是否能在某些场景里实现规模化应用;但有一点必须克制,即 不要为了让机器人在垂直场景里更快落地,而堆太多针对性的模型系统和工程补丁。比如发现视觉上有盲区,就再加一个视觉小模型去做检测和弥补,这类方法“短期来看可以帮助你加快落地,但是长期来看,对基模的提升是有害的”。
这句话不止技术判断,也是商业判断。
从外部合作轮廓看,自变量并非没有工业客户,但它投入更多精力的场景,明显偏向家庭、养老院、酒店等服务环境。
王昊并不回避这一点。他对我们表示,从产品战略和商业策略来说,自变量希望机器人能够尽早大规模部署,更早进入商业场景,而家庭、养老院、酒店这样的服务场景之所以重要,是因为“这种场景才能给我们提供数据的来源”。
与此同时,自变量认为家庭是最复杂、最开放的环境之一,朝着这样的复杂场景推进能力,再回头覆盖更垂直的场景,本质上是一个先做通用、再做“降维”的过程:当基模足够强时,垂类场景对模型提出的额外要求反而会下降。
而通用能力,最终还是要落回基础模型能力。
这也是为什么,具身厂商开始把目标指向“具身原生”的模型。
从工程实践看,当前具身大脑的主流方案已经形成某种共识:视觉、语言,最多再加触觉等模态输入,经由大语言模型处理,输出动作;世界模型更多用于生成仿真数据或构建环境。
但问题在于,这种架构,是否真的适合物理世界?
在王昊看来,过去训练路径里有一个典型误区:不同模态的数据各自训练,最后再把它们对齐起来;或者先把语言做到足够泛化,再让视觉去对齐语言。这种方式在很多时候会牺牲视觉能力,因为它默认了视觉只是为语言服务的。但具身场景并不是这样。语言更擅长表达宏观意图,却很难精确描述一个动作在厘米级空间、秒级时间里的连续变化;而视频模型虽然关注像素级细节,却未必天然理解哪些接触、运动和碰撞在物理上更关键。
自变量给出的新方向,是在端到端框架下,把世界模型和 VLA 融合得更深,通过联合建模,让视觉与动作在更早阶段对齐,从而让预测更符合物理规律。
这并不意味着放弃大语言模型。
王昊对 InfoQ 表示,大语言模型仍然是训练的基础,但关键变化在于表达空间的重构:“大语言模型这个训练基础还是要用,只是我们要把语言、动作拉到一个空间当中,而不是像以前,所有视觉都是服务语言。”
在他看来,语言、视觉与动作之间的差异,首先体现在信息尺度上。语言更偏向宏观表达——“语言描述的信息很宏观”,很难精确刻画一个物体在厘米级空间、秒级时间里的连续变化;而视频模型则恰恰相反,聚焦像素层面的细节——“每个像素的颜色、明暗都能预测得很准”。这两种尺度的信息,要在同一个模型中自然融合,本身就具有难度。
在这一框架下,动作不再只是输出结果,而成为关键模态之一。
按照王昊的说法,动作的价值在于它同时具备宏观和微观两层表达能力:“动作是非常好的模态,它在宏观上可以表达这段行为意味着什么、会导致什么结果,在微观上又可以帮助视觉更好地观察运动中的关键变化。” 这也意味着,模型不再只是“看见静态世界”,而是要理解运动本身,将视觉从静态感知推进到对动态过程的建模。
“把这几个模态放在一起,”王昊总结说,“就可以构建一个真正属于物理世界的模型。”
围绕这一目标,动作在模型中的编码方式也随之发生变化。它不再被视为单一模态的输出,而是可以与语言、视觉进行联合编码或条件编码,并在更细粒度的时间尺度上表达。
模型结构的选择,也直接影响数据路线。
今天几乎所有具身公司都在讲自己的“数据金字塔”,但不同公司对金字塔底部到底该放什么,理解并不相同。
以星海图和自变量为例,两家公司都强调 Egocentric data 的重要性,但对这个概念的理解其实并不一样。星海图的 Egocentric 核心数据基座,更多是指人类第一视角视频。自变量的 Egocentric 数据则包括人的可穿戴设备。王昊表示:“从自由度视角来看,Egocentric 的数据完全和人的自由度一致,所有的手持式、穿戴各种设备是介于人的自由度和机器的自由度之间的形态。”
看起来这只是数据分类方法的不同,实际上对应的却是对“通用能力从哪里来”的不同判断。有人认为,先让模型拥有大量人类视角经验最重要;有人认为,要尽快获得更贴近机器人控制结构的数据;也有人更看重真机接管、遥操作和真实任务反馈。看上去所有人都在谈数据,但真正的分歧,往往恰恰藏在对数据最底层定义的不同里。
三天时间,足够做出一个像模像样的结果。这意味着,demo 不再稀缺,甚至不再可信。
真实世界需要的是基模能力的持续提升,需要真正“hands dirty”的过程——去理解模型、理解硬件、理解数据,也理解那些不会出现在视频里的失败与边界。
在这样的标准下,很多差距才刚刚开始显现。





京公网安备 11011402013531号