2026年1月12日,具身智能领域迎来了一个里程碑时刻:国产具身智能基座模型,登顶全球第一!
在被称为机器人界“全球统考”的RoboChallenge真机评测榜单上,中国创业公司千寻智能自研的Spirit v1.5 VLA模型,以总分66.09、成功率50.33%的成绩,超越美国具身智能明星公司Physical Intelligence的pi 0.5模型,拿下全球第一。
![]()
由Dexmal、Hugging Face等机构联合发起的RoboChallenge测试,强调真实机器人执行能力,评测维度覆盖复杂指令理解、多步骤操作、跨场景稳定性等,被视为当前具身智能领域最接近真实落地场景的基准测试之一。
登顶的同一时刻,千寻智能开源了Spirit v1.5的基模权重、推理代码以及使用样例,交由公众复现、检验。
过去两年,具身智能繁花似锦的技术狂欢背后,行业内部却弥漫着一股“虚火”——演示时,拿货品、叠衣服、扭秧歌等等精心编排的Demo动作流畅得仿佛电影特效;而一旦离开了预设环境,Demo中精准灵巧的机器人,往往就会错漏百出,令人大跌眼镜。
当下,我们拥有全球最顶尖的机械臂、最灵活的底盘,却始终受困于一个无法回避的尴尬:“四肢发达,头脑简单”。
资本与产业界都在苦候一个真正的“通用大脑”,能让机器人走出温室,在不可控的物理世界里,真刀真枪地解决问题。
而登顶RoboChallenge全球第一的Spirit v1.5,或许真正意味着:具身智能的竞争,正在从比拼硬件的“上半场”,迈入了比拼大脑的“下半场”。
![]()
拥抱混乱:从“Demo时代”迈进“实战时代”
机器人必须先学会像人类一样在混乱中生存,才能真正走出实验室。
Spirit v1.5登顶的核心奥义,藏在千寻智能对数据“离经叛道”的理解里。
很长一段时间里,具身智能的训练侧流行着一种“洁癖”。为了让机器人学会一个动作(比如擦桌子),工程师们往往像强迫症患者一样:必须是白色的桌子,必须是蓝色的抹布,光线必须是500流明,抹布必须放在右上角。
这种在高度受控环境下采集的“干净数据”,确实能让模型快速收敛,在实验室里跑出漂亮的分数。但这样训练出来的不是智能,而是“肌肉记忆”,也就是技术上所说的过拟合(Overfitting)。
一旦把它扔进真实的厨房——那里有油渍、有反光、有随意摆放的碗筷——它就会立刻“智障”。
为了彻底解决这一“顽疾”,在Spirit v1.5的研发中,千寻智能选择了拥抱混乱,选择了一条更加艰难,但上限也更高的技术路径。
根据千寻披露的技术细节,Spirit v1.5 采用了创新的VLA(Vision-Language-Action)统一架构。这是一种端到端的“直觉反应”——不同于传统机器人“眼睛看(感知)-大脑想(规划)-手去动(控制)”的拼凑式模块,VLA 架构让机器人像人一样,感知即行动。
为了训练这种直觉,千寻智能构建了一套独特的数据飞轮,其核心逻辑是“先离散,后连续”,并在物理世界验证了大模型Scaling Law的有效性:
第一阶段,像个“网瘾少年”一样看视频。Spirit v1.5预训练的数据源,并非全是实验室采集,而是包含了海量的互联网视频——YouTube上的烹饪教程、爱奇艺里的生活片段。这些数据虽然杂乱、没有标注,有的甚至画质模糊,但它们包含了物理世界最丰富的多样性。机器人从中学会了什么是“杯子”,什么是“倒水”,以及倒水时水流的物理形态。
第二阶段,微调。在预训练建立了物理常识后,千寻引入了真实遥操作数据。但这也不是为了教机器人死板的“标准动作”,而是为了让它理解任务的本质。
这种训练范式带来了质变。
从评测结果来看,Spirit v1.5 VLA在多项任务中保持较高成功率,尤其在多任务连续执行、复杂指令拆解以及跨构型迁移等维度中表现稳定。
![]()
从“硬件叙事”转向“模型叙事”
对于投资者和企业主而言,再先进的技术、再动人的叙事,最终也要落到实际的商业案例与理性的财务数据上。
千寻智能的答案,在宁德时代的产线上。
2025 年底,千寻智能的人形机器人“小墨”批量部署于宁德时代中州基地的电池 PACK产线,这也是全球首条人形机器人电池PACK产线。
在这里,机器人面对的不是实验室的积木,而是高压、高精度的工业环境。电池插接工序要求极高,线束是柔性的,位置是变化的,稍有偏差就可能导致短路甚至安全事故。这是传统工业机械臂难以处理的“非标”场景,也是此前只能靠熟练工人完成的环节。
千寻智能披露的数据,足以让任何一个制造业的老板心动:
“连续运行中插接成功率稳定在99%以上”和“单日工作量实现了3倍提升”。
在此之前,人形机器人更多被视为一种昂贵的“玩具”或“展示品”,是企业展厅里的吉祥物。
但千寻智能用实际案例证明了,在Spirit大模型的加持下,机器人已经能够处理极其复杂的工业任务,并且在效率和良率上超越人类熟练工。
而这种可复用、可规模化的技术资产,不仅大大提高了千寻智能极高的竞争壁垒,也在重构其估值逻辑:
从“硬件叙事”转向“模型叙事”: 投资人不再将其视为一家对标发那科(Fanuc)的硬件制造商,而是一家对标OpenAI 的AI平台公司。Spirit v1.5展现出的“一脑多形”(One Brain, Many Forms)能力——即同一个大脑可以驱动双臂、单臂甚至不同构型的设备——意味着其商业天花板不再受限于硬件产能,而取决于模型的泛化边界。
“数据-模型”飞轮: 开源带来了生态的广度,而宁德时代的落地则带来了数据的深度。工业场景中那些无法通过互联网视频获取的“Corner Case”(极端情况),正在源源不断地喂养着Spirit模型,让数据-模型飞轮转动。
![]()
开源:抢占具身智能“大脑”生态位
如果说RoboChallenge的夺冠是技术的“秀肌肉”,那么随后的开源,则更体现了这家初创公司的“战略雄心”。
放眼全球,具身智能的第一梯队玩家风格迥异:
·美国的Figure AI和Tesla Optimus,走的是软硬一体的封闭路线,追求极致的垂直整合体验。
·美国的Physical Intelligence(Pi),虽然技术强悍,但在生态构建上尚未形成统治力。
千寻智能看到了一个巨大的真空地带:在行业爆发的前夜,谁能率先抢占具身智能“通用大脑”的生态位?
在当前的具身智能领域,最大的痛点是“重复造轮子”。每家机器人公司,无论大小,都在试图从零开始训练自己的基础模型。这导致了极大的资源浪费,且水平参差不齐。
千寻智能通过开源Spirit v1.5,直接拉高了行业的“标准线”。
通过开源,Spirit v1.5有望成为学界和产业界研究的基础(baseline)。当高校的研究者、创业公司的开发者都开始基于Spirit v1.5进行二次开发、进行微调时,千寻智能就拥有了定义行业标准的权力。
一旦Spirit v1.5成为行业的默认选项,千寻智能便会从事实上跃升为一家“赋能全球机器人公司”的平台型公司。
而当模型能力足够领先,形成真正的代际差时,千寻依然握有闭源的主动权,一如从GPT3后转向闭源的OpenAI。
![]()
尾声
回望科技发展史,每一个周期的爆发,往往都始于一个“定义标准”的时刻。
Iphone开创了智能手机时代,OpenAI定义了大模型范式。而现在,千寻智能正试图用Spirit v1.5,为具身智能行业确立一个通用的“大脑”。
对于行业而言,Spirit v1.5 登顶RoboChallenge并开源,可能正意味具身智能下半场的开启——
硬件会变强,也会越来越同质化;但谁能让大脑在混乱世界里稳定工作,谁就更接近决定下一阶段的规则。
行业的真正壁垒,正在从硬件,转向数据、模型、生态、标准。
千寻智能的这次“亮剑”,也是中国具身智能模型从追赶到领跑的一个关键转折点。它用一种极其硬核的方式告诉我们:
机器人不需要长得像人,但必须干得像人。
而Spirit v1.5,或许就是那个“干的像人”的起点。
*以上内容不构成投资建议,不代表刊登平台之观点,市场有风险,投资需谨慎,请独立判断和决策。





京公网安备 11011402013531号