具身的突破不会发生在实验室里,所以 “从伯克利到西二旗”。
文丨王与桐
编辑丨程曼褀
千寻智能的首席科学家、清华叉院助理教授高阳,像是个被写好程序、执行程序的人:他每天骑共享单车上下班,固定时间健身,从不熬夜。他将做科研比作一套 Chain-of-Thought 推理流程,认为只要每一步做对,结果就会自然导出。
但在具身智能这件事上,他愿意以创业者的身份,跳进充满不确定性的市场,因为随着大模型技术逐渐成熟,高阳感受到,具身的突破已经不会发生在象牙塔里。于是他和在国内机器人行业工作了 20 年的 “老兵” 韩峰涛一起创办了千寻智能。
“就像 GPT-4 之前,OpenAI 也等待了几年,” 高阳说,“我们现在正处于具身智能的 Scaling Law 时刻,只是还需要四五年的沉淀。”
高阳本科毕业于清华自动化系,博士阶段在 UC Berkeley——被誉为具身智能 “黄埔军校”——师从计算机视觉泰斗 Trevor Darrell,长期深耕机器人控制、强化学习与计算机视觉的交叉研究。
韩峰涛则曾在 2023 年初,在还没人相信具身智能时就在知乎撰文介绍具身智能。高阳说:“我见过的产业方里,韩峰涛是最愿意接受新技术的人之一。”
近期,千寻智能发布了新的 demo,在办公室里,机器人可以收纳杂乱的笔,可以换纸抽,也可以把椅子归位。
6 月,千寻智能发布最新 Moz1 机器人 demo:机器人可以自主完成更精细的操作,比如把笔插进笔筒。
从实验室到创业,从伯克利到西二旗,高阳看见了技术的可能。他的描述里,有对技术细节的洞察,也有对路径方向的推理总结。
具身智能非共识丛生,但这已经是收敛后的结果了
晚点:近期在跟美国的导师和同学交流什么趋势?中美具身智能发展有哪些差异?
高阳:最近 Figure 02 释放的 demo 还挺炫酷的,展示了 Figure AI 的快慢系统,目前国内我还没看到哪家把快慢系统真的做出来,并用到 VLA 里的。
中国目前的优势在基础硬件的制造上,一个体现是,美国很多实验室用的都是中国的机器人,这带来的另一个优势是,中国修机器人的速度要比美国快很多。
科研场景用机器人都比较狠,机器人经常出现一些损坏情况。在科研使用中我们基本上每周都把机器人邮回工厂,他们修个一周半左右,再把机器人邮回来。但在美国,来回邮寄要很长时间。
Physical Intelligence(美国机器人公司,联合创始人 Sergey Levine 曾经和高阳在 UC Berkeley 期间深度合作)从中国买了 100 套机器人,但修的速度很难能赶得上机器人坏的速度。所以他们让机器人厂商寄了一些备件,自己修,但这对人力的消耗依然很大。
晚点:你在博士期间怎么选定了具身智能方向?
高阳:我最开始是在一个做计算机生物的实验室,之后还在一个理论机器学习的实验室参与过。当时觉得计算机视觉挺酷的,所以就跟着 Trevor Darrell。
我最开始做的项目是自动驾驶,博士二年级才开始做具身智能。
许华哲(星海图首席科学家)进组第一个项目是我们一起做的端到端自动驾驶模型,那是 2016 年,学术界对端到端的研究不是很多,工业界更是没人相信。当时有一篇论文是英伟达的端到端自动驾驶,我们用了比英伟达大了 100 倍的数据去训练,泛化性更出色。现在过了 9 年了,从现在的视角来看,那篇文论已经过时了,但我们当时就已经有端到端的想法了。
晚点:怎么决定把研究方向从自动驾驶转向机器人的?
高阳:从学术角度出发,机器人是比车更通用的控制形态:机器人能做的事儿非常多,更难,所以研究起来自由度也更高。
我做的第一个机器人课题是 “把模仿学习和强化学习结合起来”,因为强化学习还挺难的,得有第一次成功才能有未来的成功。后来研究的内容就越来越多,包括更好的强化学习算法,跟物理机器人结合等等。
从个人角度,继续做自动驾驶,最好的结果可能是成为一个大厂的工程师,但这件事没什么挑战,也一眼望得到头。
我之前也在 Waymo 实习过三个月,我觉得我的脑子进去就坏掉了。每个人的事情都非常小,我只需要把极小的事情执行好,不需要太多智力。在那里,大脑不是自己的大脑,而是公司决策层的大脑,我更想做成为大脑的事。
晚点:原来一起做自动驾驶课题的你和许华哲,现在都在具身智能方向创业,你们有什么共同感受吗?
高阳:创业之后的共同感受就是忙了好多。平时我们也会交流各自的管理风格,有什么方面可以改进。
我跟许华哲最近交流的一个问题是,具身智能已经到了科研 idea 的瓶颈期,在这个前提下,我们探讨有什么新东西可以做,结论是可能灵巧手还是有蛮多可以做的。
晚点:为什么说科研 idea 到了瓶颈期?目前具身智能领域的非共识实在太多了。
高阳:我之前一直在做科研,大多数时间我都在想下一个研究课题怎么去选。在某一些瞬间我会觉得这个研究好像没有那么多可做了。
你能看到范式的变化,这样的变化可能会终结掉整个研究:某个论文出来之后,这个领域基本问题都已经解决完了,就不用继续搞研究了。
现在相当于在学术上大家有了一定的共识,因为某一些路径已经被证伪,不可能实现;趋同的部分,就是要在工程上做得更好。虽然不是说现在的学术的话题就完全收缩成一个了,但是可能从 500 个收缩成了 100 个,相当于每一个话题之下就都可能有人探索过了,要产出真的 ground breaking 并且很有影响力的东西,就变得越来越难。
晚点:所以即使在我们外行人看来,具身智能有这么多的非共识,但在科研领域已经是共识收敛过的一个状态了。是不是类似现在的大语言模型?现在已经很少有人探索 transformer 架构之外的技术了。
高阳:对,就像现在大模型一样,在学校做自然语言处理的老师,可能只有 AI safety 还有比较多的问题可以做,已经没有那么多更加需要去探索的大方向了。
2023 年开始,我大概就有这样的感觉:具身智能没有完全收敛,但是已经在收敛的过程中。从社会的角度和工程的角度,收敛后是是很好的,因为我们真的可以开始享受技术所带来的福利。
我从博士第二年起就开始做机器人相关的探索,包括强化学习、计算机视觉等,到 2023 年也做了七八年了。我在那时观察到了通用机器人的技术突破正在到来,正在从实验室走向千家万户。在这个过程中,通过公司的形态把技术的工程化做好是有价值的,所以那时我下决心创业。
晚点:清华很多教授出来创业,都是类似的原因吗?尤其是交叉信息研究院,你们 “四子”,还有杨植麟。
高阳:一方面我们所在的领域,大模型和具身智能,从学术科研阶段进入到产业化的阶段;另一方面清华这些方向过去有积累的老师比较多,我们可以把我们已有的研究推向产业。
晚点:你、边塞智能的创始人吴翼、星动纪元的陈建宇,以及星海图的首席科学家许华哲,你们四位被称为 “伯克利归国四子”。你们当时是怎么决定一起回国、来到清华的?
高阳:我们本来就在 Berkeley 很熟,是相差不大的同学。我和许华哲、吴翼当时在一层楼,经常一起吃火锅、打牌,关系挺近的。
当时毕业准备回国,最先是姚期智院长给了吴翼 offer,吴翼就问我 “要不要一起回清华”。我那时候才开始认真考虑回国的事。后来陈建宇和许华哲也是我们一起劝回来的,算是我们兼职做了 HR。
晚点:教授出来创业,会有什么局限性吗?一些人担心年轻的大学教授创业有风险,比如过段时间就拍拍屁股走人了。
高阳:我觉得大家担忧的本质是,身兼教职创业是不是意味着决心不够?我的考虑是,当教授和创业都是在做一件事,只不过是逐渐成熟的技术过渡到工程化落地。我们也看到了一些人,企业发展得越来越好,就辞去了学校的职务,专注创业,这也很好,人生就是一个 journey,没有标准答案。
不过很多投资人说科学家创业 “不靠谱”,我一定程度上认同。每个人都有自己的局限性,虽然技术我懂,但怎么去做工程化,怎么把团队的分工做好,怎么带好团队,怎么和落地的节奏配合,想起来可能没那么难,但是做起来,尤其是做好,还是挺难的。
端到端是共识,分层只是短期选择
晚点:你会怎么给具身智能划分阶段?有人喜欢用 GPT 的发展阶段来划分,有人喜欢用自动驾驶的 L 序列来划分。
高阳:我拍脑袋定义一下:L0 是工业机器人,没有什么智能;L1 是在单一任务上有智能;L2 是能在办公室场景里完成少数几件事,比如倒一杯咖啡,或者把桌面收拾干净;L3 是在一个物理场景里能做到 70%~80% 人类的事情;L4 是在单一场景内,做到人类能做的所有事,就像 Waymo 一样,在 San Francisco 去任何地方都可以;L5 是不局限于单一场景,在任意场景可以做任何事。
在这里面,L2 到 L3 是比较大的跨越,因为 L2 是少数几件事,L3 是 70%~80% 的事情,能力范围扩大很多。
晚点:我们现在处在什么阶段?
高阳:我们已经过了 L1 的阶段,在接近 L2 的过程中。不止千寻,行业最好的水平就是在接近 L2。
晚点:现在走向具身智能的路径,业内有两个选择,一种是端到端 VLA(vision-language-action),一种是分层,即规划-感知-执行。你们选择了哪一条?
高阳:走向具身智能肯定是端到端,行业内可能只有少数人不这么认同。背后逻辑已经在过去十多年的自动驾驶发展中验证了,现在基本上所有的自动驾驶都在做端到端,手动去做分层不靠谱。
晚点:在你的定义里,什么是端到端?VLA 等于端到端吗?
高阳:VLA 就是端到端。在 VLA 模型中,视觉、语言和动作这三个模块由同一个 Transformer 统一处理,并最终输出未来的动作决策:你跟机器人说任何一句话,比如说给我倒杯水或者给我做杯咖啡,模型能从语言、视觉模块抽取数据信息,机器人就能把理解和动作结合,去生成一串动作完成这个任务。
整体流程是:先从视觉和语言中抽取信息,再将两者融合,最后与动作模块进行进一步整合。这样的设计有两个显著优势:一是信息以数学语言的形式传递,更加高效和精确;二是具备良好的预训练能力,便于大规模数据学习与迁移。
晚点:你也说过,在 2016 年时,自动驾驶还没人相信端到端,但现在端到端已经很普遍了;再过几年,具身智能领域会不会出现新的实现方式,替代端到端?
高阳:未来信息的传递方式还可能继续演化。随着数据规模不断扩大,以及大模型的预训练与微调方法日趋成熟,VLA 的结构也可能在某些层面上发生变化——但这些演化方向,目前还难以下定论。
晚点:VLA 不能解决什么问题?
高阳:其实只要是操作类的,VLA 应该都可以解决。
晚点:但现在依然很多人选择分层的路径。VLA 还不能大规模使用的卡点是什么?
高阳:端到端暂时只能落地简单场景,不能落地复杂场景,因为模型预训练等的规模还没有做得很大。短期内,分层可以解决更多问题,因为分层在工程上更容易实现。
晚点:你们是如何训练 VLA 模型的?
高阳:首先让模型学习海量互联网数据,包括文本、图像和视频,以获取通用常识和基础能力;随后引入真机的遥操作数据,进行精细的 SFT(监督微调),提升模型在实际任务中的表现;最后通过强化学习进一步优化,让模型在真实环境中的成功率持续提升。通过这样的方式,我们尽可能把所有能用上的数据用起来,训练出具备泛化能力的 “基模”。
晚点:前段时间智元机器人也公开提到了他们的模型可以学习互联网视频数据。视频数据的优势是什么?应该不是所有的视频都可以成为数据来训练,你们有哪些筛选标准?
高阳:来自互联网的数据确实质量参差不齐,我们会从视频网站上扒一些第一人称视角的、有操作动作的素材,能用的比例大概在 1%。
一方面,模型可以通过这些视频学习物理世界的常识,另一方面也可以去预测物体的轨迹、人手的动作轨迹,通过这样的方式去学习怎么操作这些物品,我之前也发布了相关的论文。
晚点:这些是学习、理解的部分,那怎么让理解变成动作?
高阳:机器人学习完也不会操作,所以还需要模仿学习,然后强化学习不断调整。人有肌肉记忆,机器人也有类似的 “记忆”,只不过人是 “分布式” 的,机器人现在还是 “中心化” 的。
我们在训练时也会发现,一个操作,机器人可能很久都不会,但在某一次突然做成以后,之后也就一直会了,并且还会泛化,比如会插 USB 接口之后,插其他的东西也都会了。
这个事情主要还是取决于我们基模的训练和 SFT 做得如何,如果两个都做得很好,那强化学习就会比较快。
晚点:关于训练数据的来源,业内其实还没有统一共识。有人偏好仿真,认为便宜且量大;有人看重遥操作,数据更真实,也是特斯拉的主流做法。实际操作中,各类数据通常都会用,只是侧重点不同。你们以互联网数据为主,为什么?
高阳:我觉得本质是大家认知以及擅长的东西不同。但共识是已经被大语言模型证明的:如果基模足够好,那么模型就能变得非常强,所以第一步就是预训练,预训练就要求有足够多的数据。
遥操很难搞到量很大的数据,昂贵且很花时间;仿真可以跑出无穷多的数据,但不能解决无穷多的问题,因为数据的 diversity(多样性)是有限的。
我们团队也发现了具身智能领域的 Scaling Law,就是数据每增加 10 倍,小数点后就会多一个 9。
晚点:这是在什么数据范围内的 Scaling Law?
高阳:我在论文里验证的规模没有那么大,十到几十万区间里,这个规律都是成立的。
晚点:你们之前提到,你们发现了 Scaling Law,是具身智能领域的 ChatGPT 时刻。你觉得是吗?
高阳:算是 ChatGPT 的理论提出时刻。如果真的要比,最恰当的是 OpenAI 提出 Scaling Law 的时刻,在两三年之后他们做出了 GPT-4,因为机器人的数据更难搞一些,所以我觉得机器人的 GPT-4 要更久一些,可能需要 4-5 年。
晚点:机器人要做出像 ChatGPT 一样的效果,需要多少数据?
高阳:如果按照我们的技术路线,需要 100 亿条有效的互联网数据,也就是说先要从 100 亿的 100 倍的数据里筛到 100 亿条数据,再加上 1 亿遥操数据,再加上小几千万的强化学习数据。
晚点:现在互联网上已有的数据,足够多吗?
高阳:我们测算过,互联网上能用的视频大概就是 100 亿条,所以是要学完所有的数据,大概需要 4-5 年的时间。
晚点:机器人的链条比大模型也会更长一些,所以除了要有好的大脑,是不是也要等产业链一起成熟?
高阳:也不是,我觉得目前的瓶颈还是在 AI,虽然别的板也不长,但 AI 是最短的板,如果能把 AI 补齐,至少是个木盆。
人形不是必需,双足更不是
晚点:现在几乎所有具身智能公司都在做人形机器人,为什么?有人说是学特斯拉,有人认为人形适应人类环境,也有人看中它的科研挑战性。你怎么看?
高阳:我觉得是需求出发的,本质还是世界是为人设计的,所以人形从物理形态上可以确保解决大部分问题。
其实机器人也并不一定完全是人形,要看切入的方向是什么。比如在 L1 阶段的工业场景,一个机械臂就可以了;L2 的话,大部分时间需要双臂 + 移动底盘,但是不一定要人形。在 L4 之前,如果只是室内场景,双足都不是必须。
晚点:如果机器人有双臂和移动底盘,还需要 “人的上半身” 吗?比如一定要有头和躯干?
高阳:不一定需要头,但相机需要放在高处俯视全景。也不一定非得一米七三或人类比例的双臂。我们可以设计很多奇怪的形态,但仿人是物理上一定可行的——毕竟环境就是为人设计的。比如桌面高 75 厘米,机器人太矮就够不到。
晚点:那要是机器人只有 120 厘米,但胳膊两米长、还能像九节鞭一样折叠,不行吗?
高阳:也行,但多数场景不需要那种设计。异形机器人需要为特定任务定制,没法通用。而做人形,能覆盖大部分人类能完成的操作。
晚点:从福特时代的流水线开始,工业生产逻辑就是分工细化。为什么现在我们却希望用一个机器人来解决大量通用的问题?
高阳:精细化本质也是追求更低的成本,而通用机器人也是同一个出发点。如果为每一个问题都专门设计一套解决方案,需要付出更多成本,但通用机器人可以复用硬件设计、智能系统,只需要让机器人具备做不同任务的能力就能做到更多事。
晚点:刚才你也提到了,可能室内场景在 L4 之前都不需要双足。也有人告诉我们,先做上半身,等于当时新势力先做增程车,之后还是要补课。
高阳:我同意,之后补就可以了。
现在轮式移动底盘已经非常成熟了,但我们见到的轮式底盘的机器人其实非常少,好像只有酒店的送餐机器人。为什么呢?并不是因为底盘不够好,而是光有底盘没有手,场景就很局限,可能只能在酒店送外卖,靠人放进去、人来拿出来。
这件事的核心就是,如果机器人没有操作,只有移动,价值很小。要解决问题就要挑主要矛盾去解决,主要矛盾就是双手的操作。
另外,从需求角度,在很长一段时间里出货量最大的机器人都会是轮式地盘加双臂,因为这样的形态已经可以覆盖 80% 场景。
晚点:那你觉得双足的难度是怎么样的?行业里对这件事的观点也不统一,有人觉得双足是好补的,也有人觉得双足涉及到稳定性,要比双手更难。
高阳:我个人认为双足技术还是比较简单的。我在清华实验室最近刚好做了一个关于平衡性的项目,机器人做燕式平衡的动作,还有李小龙的踢腿动作,技术上不太难,做到工业级的稳定可能还要下一些功夫,但这里面没有本质的卡点。
机器人做燕式平衡
晚点:现在不少公司是同时做大模型和本体,比如 Figure AI 最初与 OpenAI 合作模型,后来也选择自己来做模型。你怎么看只做本体、不做大脑呢?
高阳:如果只做本体、不做大脑,那几乎没有价值——这和二十年前没本质区别。我们现在的共识是,具身智能的关键价值在 “大脑”。硬件能力和十几年前差别不大,但大家之所以现在都在入场,是因为大脑变了,有了突破,市场的天花板才真正被打开。
晚点:反过来,只做大脑、不做本体呢?
高阳:理论上可以只做大脑,但现实中会遇到困难。人不能脱离身体行动,机器人也一样。大模型本身没有 “肌肉记忆”,如果不针对具体的身体结构进行训练,很难精准控制不同形态的机器人。
晚点:你们同时做大脑和本体,刚才聊了很多你们做大脑的事。千寻做本体,会做到什么程度?
高阳:我觉得机器人最后会像汽车产业链,我们需要本体,也需要大脑,但很多零部件是可以开放给大家一起做的,比如灵巧手、比如芯片、比如触觉传感器。最后分工越来越精细。
题图千寻智能