2025 年,是人形机器人高歌猛进的一年。
从年初登上春晚舞台,再到机器人马拉松、运动会等赛事,以及各种家用和超越恐怖谷效应的机器人的出现……我们看到它越来越多的可能性。
同时,人形机器人产品价格也在不断下探。从六位数到最近的四位数,人形机器人似乎开始变得触手可及。行业吸引了大量资金涌入,投资界和消费者对未来充满期待。
面对这股热潮,赵明国保持着相对冷静的态度。研究人形机器人领域二十余年,可以说,他完整见证了人形机器人从行走困难,到今日初具智能的历程。
自 2000 年开始加入清华从事机器人研究,赵明国现为清华大学自动化系教授。2023 年,他和学生程昊一起创办了“加速进化”。团队以机器人足球比赛为场景,注重机器人的综合运动、感知与决策能力,并在 2025 年的 Robocup 机器人世界杯中取得冠军。
在这次和 DeepTech 访谈中,他没有为了迎合市场期待而表现得“乐观”,而是从技术本源出发,对行业的发展提出了自己的想法。
他认为对于真正的具身智能来说,当前热门的 VLA 模型和世界模型等,本质上是过渡性的技术手段,而非解决问题的终极方案。智能的突破点不在于简单地堆砌数据或将大语言模型逻辑复制到机器人上,而在于理解物理世界的非标准化以及构建合理的层级控制架构。
面对行业内急于追求量产的浮躁,他警告供应链和商业条件还不成熟,“iPhone 时刻”尚未到来,进入工业场景,或者盲目扩产无异于自戕。
“我的判断是,2026 年也许会是应用场景的筛选年。”赵明国告诉 DeepTech,人形机器人淘汰赛即将来临,而“只有深扎场景、倾听市场的反馈才能活下去。”
以下是 DeepTech 和赵明国的对话,内容在未改变原意的情况下有所增删。
二十多年,让机器人从稳定行走到踢足球
DeepTech:你从 2000 年开始从事这个领域,至今已经二十多年了,见证了人形机器人学科的整个发展历程。是什么让你坚持了下来?
赵明国:其实谈不上是“坚持”。这个学科并没有所谓的“寒冬”,它一直都在发展,只不过节奏比较慢,属于一个相对小众的领域。对我来说,这更单纯地是一种机遇。在这个过程中,很多人来了又走,而我比较幸运地留了下来。
DeepTech:那在这二十多年里,你和团队对人形机器人的研究经历了哪几个阶段?
赵明国:大致经历了四个阶段,每个阶段的侧重点都不同,复杂度也越来越高:
第一阶段是“模仿与摸索”。起初我们什么都不懂,主要是照着日本的 ZMP(零力矩点)理论做。当时的理论很粗浅,硬件和算法也比较落后。
第二阶段是“基于模型的控制”。这一时期出现了一些简化的计算模型,比如 LIP(线性倒立摆)、DCM(动态捕获点)等,虽然现在看难度不大,但当时需要很强的专业知识。与之并行的还有“被动行走”理论(2005 年左右)和“极限环”理论(持续到 2014、2015 年左右),这些都偏向于控制学,让机器人能够稳定行走。
第三阶段是“优化控制”。这主要是受美国 DARPA 机器人挑战赛(DRC)的影响。大家开始把机器人的运动问题定义为一个数学上的优化问题来求解。机器人的性能也因此提升了很多。
第四阶段,也就是现在,进入了“学习与智能”阶段。随着人工智能的发展,强化学习开始占据主导地位。
总结来说,就是一个从偏力学、到偏控制、再到偏优化,最后到偏学习的过程。
DeepTech:团队主要以 “机器人踢足球”为核心场景,市场上还有很多公司展示的是跑步、打拳,或者像叠衣服这样的任务。你怎么看这种差异?
赵明国:踢足球这个方向比较特殊,它可以与“教育”场景深度结合。
我们将踢足球作为一个促进技术发展的平台。这背后有一个不小的教育市场,通过建立标准平台卖和高校或研究机构合作,既能获得市场反馈,又能让产品在特定的高难度任务上聚焦。所以,踢足球更像是一个带动技术升级和教育市场的抓手。
DeepTech:相比于其他任务,让人形机器人踢足球对核心能力有哪些不一样的要求?
赵明国:踢足球对人形机器人的综合能力要求极高,远比确定场景的任务困难。
首先是综合运动与感知。踢足球需要调动全身关节,不仅要跑得稳,还要实时感知环境。
其次是动态决策与对抗。对手是动态的,而且不会配合你。机器人需要在一个长序列中不断做决策,还要涉及多智能体的团队协作与对抗。
大家觉得机器人能叠衣服,就意味着可以完成家务工作了。但实际上现在的演示大多只能叠没领子、没扣子的 T 恤。一旦遇到有领子、有装饰或材质复杂的女装,它就很难处理。叠衣服更多是为了证明某个特定视觉或操作算法的提升,但目前还是一个静态任务。
从技术维度排序的话,踢足球的技术维度多于打拳,自主打拳多于遥控马拉松,最后才是叠衣服。
因为马拉松主要考验机器人的奔跑能力和可靠性,对环境感知的要求相对单一;而打拳涉及对抗,但通常是一对一,环境相对封闭;踢足球则是全方位的考验:感知的面积大、动态博弈复杂、还需要多机协同。
所以我更倾向于通过踢足球这种高维度的任务来推动技术进步。
DeepTech:关于人形机器人踢足球这个能力,终极目标是什么?
赵明国:这个目标最早设定于 1997 年,当时计算机(深蓝)战胜了人类国际象棋冠军。于是大家提出了一个新的挑战:到 2050 年,我们要建立一支完全自主的人形机器人足球队,并战胜当年的人类世界杯冠军。
何为真正的具身智能?
DeepTech:现在很火的 VLA(视觉-语言-动作)模型,有人质疑它是新瓶装旧酒,用数据掩盖了泛化能力的不足。你认同吗?
赵明国:我基本认同。但它目前更多是过渡性的技术手段,而非终极方案
大语言模型(LLM)之所以能取得巨大成功,核心原因在于人类语言数据的特殊性。书籍、文章经过了几千年的积累,人类语言是高度结构化、标准化且有共识的,因为数据规范且量大,模型才能从中学习并泛化。
但机器人的数据(视觉、触觉、动作)完全不同。物理世界的数据是非常不规范的。视觉、听觉、触觉等感知信息本质上都是低层次、原始的信息,缺乏像语言那样高度的结构化和共识性。
因此,很多人想把 LLM 的成功逻辑简单复制到机器人上,这是行不通的。
DeepTech:那么世界模型呢?这也是行业近期的热点。
赵明国:我觉得现在的很多宣传把这些概念神化了。
我们不需要完全理解世界的物理规律(建立完美的世界模型)才能完成任务。例如燕子飞行能排成“人字形”省力,不是因为它懂空气动力学,而是自然选择和经验的结果;人类用手机也不需要懂电路原理。
本质上智能是通过与环境交互、积累经验而涌现的。科学理论往往是“后知后觉”的总结,而不是先有理论再有实践。
DeepTech:程昊(加速进化 CEO)在接受采访中提到,团队训练人形机器人主要用的是仿真数据。请问你们的数据策略具体是怎样的?
赵明国:其实在我们的语境里,并没有传统意义上“数据”这个概念。
大家容易混淆两种学习方式:
一个是监督学习(Supervised Learning):这确实需要海量数据来训练网络参数。你可以用真机数据、仿真数据或合成数据,但数据的数量并不直接决定结果的好坏。尤其是在机器人视觉领域,因为相机参数、光照、环境条件千差万别,采集的一堆数据可能根本用不上,甚至大部分是无效的。
第二个是强化学习(Reinforcement Learning):这才是我们用的主要方法。强化学习的核心不是“喂数据”,而是“试错”。所谓的仿真数据,本质上是机器人在仿真环境里进行交互和探索。在这个过程中,无论是仿真环境还是真实环境,本质区别不大,关键在于系统能否通过交互学到策略,而不可以单独谈论数据质量和数量。
DeepTech:在目前这个阶段,硬件的重要程度是怎么样的?
赵明国:我喜欢用“项链”来比喻:硬件就像项链上那一颗颗串起来的珠子,它是基础,没有硬件你就做不了机器人;但是,真正让这条项链价值连城,是中间那颗宝石。在人形机器人里,这颗宝石就是具身智能。
商业化:工业场景是个“坑”
DeepTech:关于商业化落地,你对人形机器人在工业场景、ToC(消费者)和教育场景的发展前景怎么看?
赵明国: 第一,关于工业场景,我认为这是个“坑”,尤其是对初创公司而言。现在很多人认为机器人可以进工厂,但我认为工业里绝大部分需求已经被传统的自动化(Automation)解决了。留给“人形机器人”的空间到底有多少?这很难讲。
第二,关于上市公司与初创公司的不同逻辑。像已经有一定规模的上市公司,它们做机器人的逻辑和初创公司完全不同。
初创公司是一穷二白的,你不能只讲故事,也不能像大厂那样仅保持技术领先就行。如果你一头扎进工业场景这个长周期、高门槛的领域,很容易因为造血能力不足而倒下。
第三,关于 ToC 和教育开发者市场。真正的 ToC(家庭消费级)短期内很难爆发,因为那需要单品销量达到 10 万台以上的量级。
但我非常看好“开发者市场”和“教育市场”。三年前很多人认为这个市场很小,但事实证明它在快速增长。为什么?因为全世界都在开发“具身智能”,研究AI的人需要一个物理载体(身体)来验证算法。
所以,这里说的“教育”不仅仅是学校里的教学设备,更多是面向广大开发者和科研人员的“基础设施”。随着具身智能的火热,这个群体对高性能机器人硬件的需求量是非常可观的。这才是当前最务实的商业化路径。
DeepTech:你觉得目前限制产能的最主要技术瓶颈是什么?
赵明国:我觉得核心原因不是单一的技术瓶颈,而是技术和商业的双重不成熟。
现在大家都在等所谓的“GPT 时刻”或“iPhone 4 时刻”,但事实上这个爆发点还没到。在市场没爆发之前,盲目搞大规模生产是自戕行为。比如你觉得“唱歌机器人”火,你一口气备货 10 万台,结果市场风向一变,只需要 1 万台,那你剩下的库存和产线投入就直接把你拖垮了。
一定要警惕用“互联网思维”做硬件。软件代码写错了可以推倒重来,成本很低;但制造业是真刀真枪的重资产,厂房、设备、模具投进去就是沉没成本,一旦方向错了,很难回头。所以成长曲线必须合理,不能幻想今天1台,明天就 1 万台。
DeepTech:在这种模糊的探索期,你觉得行业最稀缺什么样的人才?
赵明国:这个时代筛选人才的门槛非常高,需要的是“懂技术的生意人”,或者说“有商业头脑的技术专家”。
回顾历史,每个时代发财的人需要的核心能力不同:80 年代靠胆大和信息差(投机倒把);后来靠下海经商;再后来靠互联网。而到了机器人这个硬科技时代,只懂一样肯定不行:如果一个人只懂技术,那么他做不了大事,看不懂商业逻辑。要是只懂商业,听不懂技术,在这个技术迭代极快的行业里会被绕晕,最后很可能被淘汰。
筛选年将至,场景是关键
DeepTech:在你看来,对你们而言下一阶段有什么务实的技术或方向?
赵明国:真正的务实是你在某个细分领域(哪怕很小)做到了极致,比如占有率达到 99%,甚至因为你的存在,这个小领域本身在扩大,甚至带动了整个行业的发展。
这就像 RoboCup(机器人足球世界杯),你得先把踢球这件事做好。如果大盘没动,但你在这个细分领域带着大家往前跑,这才是贡献。
DeepTech:你对 2026 年的行业竞争格局有什么预测?
赵明国:我有个比较大胆的预测:2026 年也许会是应用场景的筛选年。可能会比拼谁能先找到有现金流的核心场景。找到了应用场景, 才会真正实现技术迭代。
DeepTech:你心中的终极机器人产品是怎样的?
赵明国:关于机器人的外形无法确定,但机器人应该是一个“新物种”。它跟人有很多不同,但在某些特定能力上,它一定要比人强。
这就好比飞机和鸟。飞机没有羽毛,也没有鸟的很多生物特性,但它剔除了冗余,保留并放大了核心的空气动力学原理,所以飞得比鸟更高、更远。机器人也是同理,作为机器,它必然要在某些功能(如力量、效率、耐力)上超越人类,否则我们制造它就没有意义了。





京公网安备 11011402013531号