
![]()
“Spirit v1.5成为全球最强开源具身模型。”
作者丨梁丙鉴
编辑丨林觉民
“就在这栋楼下面,26年就会有一个上千人的数据采集团队,冲击100万小时数据大关。”韩峰涛忽地探身,手指地面,仿佛下一代具身模型已经被他攥在掌心。
1月12日,千寻智能宣布开源具身模型Spirit v1.5。在RobotChallenge的最新榜单中,它超越此前国际标杆Pi0.5,成为迄今为止,全球最强开源具身模型。
开源前两天,我们在千寻智能北京总部,见到了创始人韩峰涛,进行了一次深度对话。
![]()
具身智能技术的繁荣背后有另一番景象:花样迭出的演示demo层出不穷,但实验室外一项叠衣服任务就可以难住大多数厂商。在这种背景下,Spirit v1.5让人看到了具身智能真正解放人类生产力的可能。
RobotChallenge测试项目中包含插花、桌面清理等30个桌面项目,旨在还原真实物理世界的同时,引入随机扰动增加泛化挑战。当名为实验室的“温室”被移除,Spirit v1.5仍然达到了50%以上的任务成功率,作为对比的是Pi0.5模型42.67%的成绩。
一个关键的问题在于,Spirit v1.5到底是“挤牙膏”之作,还是标志着具身模型快速攀升期的开始?韩峰涛坚信是后者。
2026年被他描述成一个充满竞争和希望的年份,数据和算法收敛,具身模型性能通过scaling的方式快速攀升,火热的融资紧随其后。类似的故事发生在2023年,主角是大语言模型。
“26年之于具身智能,就是23年之于大语言模型,”韩峰涛说,“具身智能的GPT moment一定会在26年出现。”
数据数量加数据质量决定模型质量。为此,千寻智能要将自建的数据工厂扩张至近千人规模。而作为行业少见的模型、本体并举的全栈公司,韩峰涛选择自研硬件的初衷也是为模型提供更高质量的数据。因为模型和硬件绑定,联合设计,软硬一体,效果最好。
“最好的机器人就是你自己做的机器人。”他说。
韩峰涛的另一重身份,或许可以解释他对具身模型的笃信。
2014年被称为中国工业机器人元年,同年年底,韩峰涛和同伴创立了珞石机器人,这家公司在日后跻身国产工业机器人前三。一段差不多同期的历史进程,是整个中国工业机器人行业的崛起。从2015年到2024年,国产工业机器人的市场占有率从3%跃升至50%。
读懂过去的人会看到未来。当韩峰涛创立千寻智能时,他知道具身智能并不新鲜。曾经的研究者尝试把深度学习技术用在机器人身上,但当时AI的智能水平还不足以胜任严肃的生产力场景,最终落地的只有NLP、智能音箱或是扫地机器人。
那为什么我们今天会期待,机器人可以真正干活?
“这一代具身智能的核心变量只有一个,就是AI技术发生的革命性变化,让机器人的大脑真正有可能可用了。所以真正的具身智能公司,要思考的核心问题只有一个,怎么让具身模型进化?”
一个无可辩驳的事实是,同样在百亿级资金的投入下,具身智能的发展速度远落后于大语言模型和自动驾驶。韩峰涛将之归因于数据的匮乏。
过去20余年里互联网上积累的数字资产支持了大语言模型的快速爆发,自动驾驶虽然同样遭遇过数据短缺,但没有智驾功能的车也会有人买,这为边卖产品边采数据提供了可能。相较之下,没有大脑的机器人完全没用,这种产品性质让具身智能的数据飞轮更难以启动。只有先采集足够的冷启动数据,让模型能够支撑机器人进入严肃的生产场景,才能再现当年人们边开车边采数的过程。
如何把能干活的机器人卖出去成为了千寻最关键的命题。·“干活”,一个半小时的采访中韩峰涛平均每两分钟提到这个词一次。“舞蹈跳一万次也是一条数据,展品卖出去上千台等于卖出一台。你必须要把那种由模型驱动的、能干活的机器卖出去,才能让数据飞轮转起来。”他说。
特斯拉、蔚小理……你可以从韩峰涛的讲述中看到很多公司的影子。而归根结底,千寻是千寻智能,而不是千寻机器人。
以下是雷峰网和韩峰涛的对话,作者进行了不改变原意的编辑整理:
01
千寻智能,不再拿着锤子找钉子
雷峰网:在千寻智能之前,你在2014年创立了珞石机器人。这十多年里先是中国机器人行业经历了快速发展期,然后整个行业从工业机器人转向了智能机器人的竞争。作为两个历史进程的亲历者,你会怎么给中国在世界机器人行业所处的位置划分阶段?
韩峰涛:四个阶段。2010年之前,国内的工业机器人还是全进口。10年到20年算是发展期,这段时间里国产的零部件、整机在慢慢发展,但是市场占有率的提升不高,可以说还比较弱势。一方面当时刚刚起步,国内客户对国产机的接受度低。而且相关人才也少,很多厂商都是去航空航天、机械这些专业把人招来,自己培养。还有一部分原因是工业周期长,市场比较小,所以那会的投资人对工业没什么概念。直到2015年左右,机器人、半导体、高端装备、医药这些泛工业方向的投资才开始慢慢变多。
20年疫情开始之后,国外的厂商停产比较严重,只有中国还在正常运行。所以当国外缺货的时候,也只有中国的机器人能供上货,客观上讲疫情给了中国机器人行业一个巨大的助推。那几年里国产机器人的市场占有率上来了,零部件因为大家用得更多,也更成熟了。
2015年国产机器人的市场占有率大概3%,2024年就到50%以上了。国产工业机器人的崛起,也就是19年到23年的事。
从24年开始,就是具身智能的竞争了。23年之前中国机器人行业处在以硬件、小脑为核心的进口替代阶段,从24年开始,就要进入以大脑为核心的智能机型时代。在这个时代,有人认为将来大脑成熟之后肯定需要很多本体,所以为了服务大脑开始搞本体、机器狗。有人认为既然核心是大脑,就开始搞大脑,比如我们。总之24年是个分界点,这之前的机型都是以小脑、运控和硬件为主,之后是以大脑为核心。到今天经过两年的发展,具身模型在26年就要进入快速进化的阶段。
前三个阶段我们都在追赶,但是到第四个阶段,中国可以说真正跟海外的对手齐头并进了。
雷峰网:高阳曾经说,如果国内的具身团队买了机器人,训练过程中出了故障可以寄回去修,一周就能邮回来。这样几台机器人轮流上,效率会很快。但宇树不能这样给美国的科研团队维修,只能一次性多寄点配件,导致很浪费时间。你认为中国在工业机器人领域的优势,会如何影响今天围绕具身智能的竞争?
韩峰涛:原来经常有人说,中国有供应链,所以中国的企业就可以拿到便宜的零部件。但特斯拉的供应链也在中国,如果中国有好的供应链,国外的厂商也会买,所以价格这件事上中国企业不存在优势。
那么供应链的主要优势在于什么呢?在于这个供应链体系可以让我们的迭代速度非常非常快。高阳给你举的例子还只是在科研,当供应链就在我24小时包邮区之内,我的产品可以按照天来迭代。一个人在深圳做智能硬件,打板厂、芯片厂、焊接厂、维修厂都会在一个半小时车程之内。一个有问题的硬件今天寄回厂商,明天收回来,可能两天就解决了。如果你在美国,发个特快过去也得一周,特朗普还要加关税。这种情况下,我的迭代速度是美国公司完全没办法比拟的。
但客观来讲,目前美国还是在大脑、小脑和硬件上都有一些优势。硬件领域,中国硬件的主要优势在于便宜,但是要论绝对性能,仍然是波士顿动力和特斯拉领先。你看波士顿动力的现场演示,AI能力虽然弱一点,但是他们的动作稳定性、柔顺度、流畅性都很好,这就意味着他们的整个硬件设计、运控能力非常强。
雷峰网:既然存在这些差距,为什么你仍然认为中国在和海外的对手齐头并进?
韩峰涛:现在我们搞具身智能,很多点上就是全球领先的。3月份的时候,我们的模型是国内第一个完成叠衣服任务的,这也是具身模型里最难的任务之一。到了25年底26年初,我们基模的综合能力在RoboChallenge的评测榜单中位居全球第一,超越了Pi0.5。原先在工业机器人和自动驾驶的时代,全球第一是不太敢想象的。现在我们就是敢,因为时代机遇不一样了。
从中国开始有风险投资到疫情之前,中国几乎所有的硬科技创业都是在搞国产化替代。光刻机、船、飞机、汽车、手机、家电、无人机、全景相机,甚至是灯,都在干这件事。这是历史使命,国家要产业升级就一定要国产化替代,但对于创业者来讲这也是痛苦的。我做机器人,上面有ABB、库卡、发那科,国内还有汇川、埃斯顿这些竞对。但是你现在回头看中国制造2025,这个规划2015年发布,大部分计划都提前完成了。疫情之后中国在全球的科技硬实力,客观来讲是很强的。所以在AI,尤其是具身智能领域,我们起步虽然跟美国还有点差距,但基本上是齐头并进的。
雷峰网:除了面对的时代机遇,你认为千寻智能这次创业,自己还有什么不同?
韩峰涛:一个主要的区别是我对创业的认知。第一次创业的时候,是我会干啥我创啥业,所以我搞工业机器人。而且我也没有非常关注市场角度,去考虑应该做什么样的工业机器人。而是我觉得什么机器人好,我喜欢什么样的工业机器人,我就做什么样的。这就是拿着锤子找钉子,客观来讲是运气好,沾了时代的光,但我们也没有成为一家伟大的公司。
所以第二次创业最核心的变化,就不再是我会干啥我干啥。如果还按照这个思路,那我是做硬件的,我就应该去卖硬件。但这次具身智能核心的机会来源于AI。Embodied AI,embodied是形容词,本质还是AI,所以我们叫千寻智能,不叫千寻机器人。我去找高阳的时候说,我们要做AI,要做具身大模型,因为这才是最大的机会。
这就是我个人认知的变化,第一次是拿着锤子找钉子,但这次是时代需要什么,我就干什么。站在你的创业机会上,做什么样的公司才能抓住时代机遇?这决定了你创什么业。
02
会叠衣服比旋风踢更重要
雷峰网:你为什么判断,具身智能行业的时代机遇是具身大模型?
韩峰涛:你想没想过,为什么会有具身智能这个赛道?原因很简单,就来源于AI技术进步,就来源于大模型。宇树16年成立,珞石15年成立,乐聚、云深处也都很多年了。原来也有机器人,但为什么上一代机器人干不了活,跳不了舞,为什么原来没人讲具身智能?其实上一代也有人在做具身智能,英文名词就叫Embodied AI,也是把AI从虚拟世界带到物理世界。这一批具身智能用的是深度学习技术,但当时的AI智能水平太弱了,所以真正落地的只有NLP、智能音箱,或者给扫地机器人做视觉规划这些场景。
今天这一代具身智能的核心变量只有一个,就是AI技术发生了革命性的变化,这种技术进步让机器人的大脑真正有可能可用了。所以真正的具身智能公司,要思考的核心问题只有一个,怎么让具身模型进化?
具身模型其实也是大模型,有三要素,数据、算力、算法。算力和算法基本上是收敛的,或者说具身模型在训练范式上跟训练多模态的大语言模型一样。大语言模型是怎么进化过来的?一开始只有LLM,后来开始有图像有视觉了,叫VLM。GPT-4o采集了很多真人的声音,说话的语调音色就更自然了。o就是Omni,全的意思。但是它的全面只存在于虚拟世界,是虚拟的全模态。机器人需要物理全模态,除了能说会道之外,还要能干活。所以从VLM到VLA,其实就是在原来图像、文字、声音的基础上加上动作。这整个范式都是一样的,就是不断给模型增加模态。
黄仁勋去年在CES的演讲里有一张图,画的是从Alexnet深度学习,到商汤旷视做的第一代AI,再到OpenAI这种第二代的生成式AI,再到Agent,最后到 Physical AI。这些是一脉相承的,技术路线已经相对确定了。
雷峰网:但千寻智能现在也在自己做硬件,是出于什么考虑?
韩峰涛:具身智能是一个长坡厚雪的赛道,后边这个曲线就是我们说的长坡。下面2016 ~ 2020是大模型的时间线。这个点,对于大模型来说是2016年OpenAI起步,2020年他们发了 Skillful Learning的论文,后面就是Scaling Law。上面是具身模型时间线。很多具身公司是2024年成立的,到今天,基本可以认为具身模型到了GPT-2的时代,接下来我们要到GPT-3。GPT-3干了什么?大力出奇迹。当数据和算法的都收敛了,大家就知道应该投钱采什么数据,模型就要快速增长了。
![]()
具身智能及大语言模型发展阶段对比,韩峰涛办公室图
所以你看美国的具身智能公司都在干什么?可以引用一下特斯拉的思路,他们不搞商业化,甚至不着急量产,而是在一点点优化机器人。那为什么特斯拉不买宇树的机器人做模型?因为模型跟硬件是绑定的,最好的机器人就是你自己做的机器人。模型跟机器人联合设计,软硬一体,效果最好。而且你看特斯拉的发布会,自动驾驶的仿真效果特别好。他们有全球最好的仿真器,为什么机器人不用?因为仿真数据不行,一定得是真实数据,而且得是用自己的机器人采的真实数据。
另外大家经常讲,长坡厚雪,沿途下蛋,做硬件也有市场目的。模型能力每达到一个级别,我们就可以下个蛋,做个东西。比如我们做三指手而不是五指,一方面是因为在生活场景,三指手已经能完成百分之八九十的活。另外一个原因是五指手现在还不成熟,我们沿途下蛋的时候,能量产的产品一定是基于成熟技术。就像做新能源车,完美的新能源车应该是 L5 加固态电池。但你14 年做Model S、 Model 3的时候怎么选?17年做理想One的时候怎么选?那肯定是L0加增程,L0加快充,L0加换电,慢慢再换成L1加增程,L2加三元锂,L3 加固态,一步步来。我们现在的三指,就类似于增程。
所以一家好的具身智能公司,一定是以 AI 为核心,但是有世界一流硬件的支持。这个硬件既从数据角度支持模型,又从销售角度支撑公司运营。
雷峰网:你们是一家模型公司,但又要做本体,又要做手,会不会太多头了?
韩峰涛:但你必须得做。具身智能在商业逻辑上更像自动驾驶的新能源车,灵魂是自动驾驶软件,但客户买的是一台更智能的车,所以这两件事你都得干。在具身智能行业,只卖模型的生意模式基本不存在。当然我们畅想一下,10 年、20 年之后有没有可能?也有可能。自动驾驶,有没有可能特斯拉的领先幅度越来越大,将来就不造车,只卖FSD?也有可能。但是大概率不会,因为只有在自己的车上才能训练得最好。
雷峰网:千寻智能计划什么时间进入量产阶段?
韩峰涛:看你怎么定义量产。如果我们说的是有生产力、可以干活的机器人,那大概是26年底。今天的模型能力还没有快速爬升,就像在GPT-2时代,大模型性能和商汤、谷歌做的Bert模型可能没那么大差异。但我们融资的时候就会告诉股东,我们是从成立第一天起就想着干模型的公司,我们需要两年时间摸索,去找最佳的数据配比、最好的数据管线、最好的模型结构和算法。
千寻是2024年成立的,这两年我们把基础设施全都搭好了,第三年就要开始数据上量,模型性能提升。很快我们会开源一款具身模型Spirit v1.5,在RobotChallenge榜单排第一,比Pi0.5还要强。未来到Pi0.6打榜之前,我们都会是全球最强的开源模型。
我们可以用智驾的逻辑梳理具身智能行业,但是具身智能跟智驾有个本质区别,那就是车没有智驾仍然可以开,但没有大模型的机器人就是没用的。当你还没有足够好的模型,你的机器人卖出去就只能跳舞,只能做导览、数采,这些都不算干活。这当然也有价值,但它是一个小市场。
将来的具身智能,会是略低于汽车的价格,乘以略少于手机的数量,这是个巨大的市场空间。玩具、跳舞、导览是客观存在的市场,但这个市场太小了,一年撑死卖5, 000台。每年全球能卖7, 000万台车,10亿部手机,这完全不是一个量级的市场。展品和玩具,不算是真正的机器人。
雷峰网:能干活的才算吗?
韩峰涛:或者说卖能干活的才有意义。机器人跳一万次舞,本质上也只有一条数据,因为每个动作都跳得一样。展品卖出去上千台,本质上等于卖出一台,只能产生点营收,对于模型进化没有帮助。你必须要把那种由模型驱动的、能干活的机器卖出去,才能让数据飞轮转起来。
而且产品能不能量产,其实背后就一个卡点,有啥用。东西只要有用,再贵也有人买。九几年买个房才三万,大哥大一万多一个,为啥有人买?私人飞机几千万上亿,为啥有人买?有用就一定有人买,那怎么让机器人有用?就卡在一个地方,模型。所以我们选的场景都是能帮助模型进化的场景。
雷峰网:2025年国内部分具身厂商把量产作为主要目标,但与此同时具身模型的进展并不显著,你怎么看?
韩峰涛:特斯拉的AI能力肯定没问题,但为什么大家都觉得特斯拉的人机交互做得不好?他是全球最强的AI公司之一,难道他做的模型不如其他的公司吗?不可能。那原因是什么?第一特斯拉不需要融资,第二特斯拉是直接奔着终局去的。终局就是构建一个通用的本体,加一个通用的具身模型。
PI在训练模型,Sunday在训练模型,美国没有人在卖硬件。所有厉害的模型公司都有厉害的硬件,反而只有硬件没有模型的公司,将来会面临很大的挑战,这是个战略选择的问题。国内有很多公司出于股东压力开始卖硬件,但那不在主航道,核心就只有模型。
雷峰网:你怎么衡量具身模型的进化水平?
韩峰涛:可以参考自动驾驶。工业机器人是L0,加点工业视觉就是L0.5。但这些东西应用场景都很小,只能做那一件事。到2024年底,机器人可以叠衣服了,就是L1。自动驾驶的L1叫单功能辅助驾驶,就是可以自动刹车、车道保持。那具身的单一功能是什么?比方说叠衣服、帮我开门、拿瓶水。只做一件事就是L1。其中叠衣服是L1里最难的。如果能叠衣服,那L1级别的所有任务就都能干。现在大家都选这个场景,其实就是在秀肌肉。
我刚才讲具身智能的机会来源于大模型,它的落地也受限于大模型。因为当你只有L0的时候,机器人就只能跳舞。L1的机器人会叠衣服了,但是只有在工厂流水线这个场景才有价值,因为流水线就只要求人做一件事,相应地在商用和家用场景就不行,所以我们L1阶段落在了宁德时代。
模型能力继续爬坡,L2叫组合辅助驾驶,能干一长串的事。落到具身上,就从叠衣服进化到找到脏衣服、扔进洗衣机、倒洗衣粉、操作洗衣机、晾衣服、叠好放进衣柜这一长串。你只需要给一个指令,机器人就能干一长串的事,就是L2。2025年底,模型大概在L1.8左右,我觉得26年夏天就可以到L2了。
雷峰网:那么L2阶段,千寻智能理想的落地场景是什么?
韩峰涛:我们现在比较看好零售、物流这些服务场景。其实L2阶段的场景也要一个一个攻克,只是选择场景的时候,首先要选一个有商业价值的大场景。
工业场景为什么选宁德时代?因为工业里新能源电池行业的利润是很可观的。物流为什么选京东和华为?也是因为这些场景有很好的商业化和利润水平。L1、L2的所有场景里,肯定要选那些利润高且愿意为机器人付费的场景。
03
具身大年将至,决战数据之巅
雷峰网:对于具身企业来说,2026年最紧迫的任务是什么?
韩峰涛:具身最后的竞争会是通用大脑的竞争,这至少在美国已经是共识了。数据数量加数据质量决定模型质量,那么在训模型的时候你就需要回答,用什么数据训这个模型,以及数据从哪来。今天领先的具身智能公司,都在解决这个问题。
你可以买第三方机器人采数,但这只能做科研写论文。而且模型最终要驱动机器人干活,在其他机器人上采的数据落到不同型号的机器人上,数据不同构会导致模型性能下降,也就干不了活。
另外一种是特斯拉的方案,他们在用自己的机器人搞数据。当机器人的外观、灵巧手、腿、胳膊所有部分都确定下来,就可以大批量生产。到这一步,特斯拉就可以像曾经卖它的车一样,让机器人一边干活一遍采数。有了数据,加上它最大的算力中心和AI人才,就可以训具身模型了。这也是千寻的方案,我们做了一个机器人数据工厂。现在我们楼下的数据工厂大概有四五十个采集工位,26年会增加超过10倍。相比之下特斯拉会花更多的人工成本,但大家背后的逻辑都一样,就是尽量采集更多真实的、重构型的数据,然后再去训练模型。
雷峰网:智驾厂商的很多路况数据是客户采集的,他们只需要投入很少的人组建自己的数采团队。千寻智能已经积累了很多客户,为什么不选择类似的方案?
韩峰涛:为什么具身智能的发展速度比大语言模型和自动驾驶慢?就是因为缺数据。大语言模型的快速爆发,来源于人类过去20多年在互联网上积攒的数字资产。自动驾驶一开始也没数据,但没有自动驾驶功能的车也能卖出去,所以客户可以一边开车一边帮他采数。机器人不行,没有大脑就完全没用。
这也是为什么这两年我们在做自己的数采设备,搞我们自己的数据管线。因为我们要尽量模仿当年人们一边开车一边采数的过程,想办法让人一边干活一边采数。让人学会遥操机器人,效率低成本高,安全性也不行,最后的方案收敛到了可穿戴设备上。让人穿上数采设备,该干啥干啥。
雷峰网:此前自动驾驶或大语言模型的发展,可以给具身数据的采集提供什么启示?
韩峰涛:比如自动驾驶,客户采集回来的数据是用来做预训练的,这部分数据多了以后,回传的大部分数据就没用了。这时候车厂会搞个小的数采团队,采集特定城区街道,和某种路况下的特定数据,这些数据就是用来微调模型的。
具身智能的数据也分这两类。我们会在工厂、物流、家庭,不限制场景地采集预训练数据,然后在宁德、京东、华为更多地采集后训练的微调数据。微调数据也分两类。书房、客厅这些场景,我们会自己搭建,自己采集,因为现在我们没有这样的客户。但是电池、物流这些场景的微调数据,我们就提供数采设备,让客户到他们的现场去采。
雷峰网:训练具身模型,到底需要采集多大体量的数据?
韩峰涛:现在PI和我们加在一起,真机数据也就1万小时,可能得1,00万小时数据才会有比较好的模型效果。但实际上我们只需要自己采冷启动数据。只要模型能达到L2水平,能支撑机器人干活,我们的机器人就能大批量卖出去。然后我们再开发一个萝卜快跑那样的接管系统,大部分时候机器人自主干活,出问题的时候远程接管。这样数据飞轮就能转起来,机器人用得越多,数据越多,模型越好,卖得越多。
而且训到同样的模型效果,我们的数据效率比国内竞对要高大概5倍。叠衣服这个动作只用了100多小时数据,国内竞对都得上千或者大几百小时。
雷峰网:自动驾驶能力可以通过百公里急停或接管次数衡量,对于具身模型有类似的衡量标准吗?
韩峰涛:定这种衡量标准,首先要限定场景。自动驾驶实际上就限定了开车场景,但机器人要干的活很多。假设我们限定在造电池场景,我也可以用自动驾驶的逻辑,看平均生产多少电池需要接管一次。如果想收敛在一起衡量,起码要等到26年,大家都能做这些事情了再比较。
客观来讲,早期很难评价一个模型的好坏,开源模型的榜单测评是一个很好的方式,所以26年肯定是一个打榜的年份。其实打RobotChallenge我们还是吃亏的,因为我们是基于自己的硬件来做,在测评中使用第三方不同的硬件肯定会影响模型性能。但是考卷对我们来讲更难,我们反而分数更高,那就是我们的能力更强。
雷峰网:千寻智能的模型团队现在有多少人?
韩峰涛:将近40个人,做硬件的也是40个人左右,目前整个公司我们大概110人。硬件团队主要以上半身为主,一体化关节、手臂、感知系统,就是摄像头,还有三指的手。其中手的研发投入会比较多,腿好解决,我们的底盘就是一个类似于室内的自动驾驶方案。双腿对普通的家用机器人意义不大,你得把坐着能干的活,或者轮式底盘能到的地方的活先干了。
雷峰网:2026年你们还有融资计划吗?
韩峰涛:融,这一次冲L2肯定要拿大钱。26年是模型能力快速进化的元年,也会是具身智能大额融资的元年。原来除了智元和银河融得稍微多一点,估值上了100亿,其他家都没像六小虎那样一次融几亿美元,但是26年具身智能也会有这样的融资。
26年对于具身智能,就相当于国内大语言模型的23年,大家会看到这件事可以scaling,会相信具身大模型的能力要开始快速攀升了。现在的具身大模型处在预训练阶段,预训练差不多了,基于GPT-3.5才能开发出ChatGPT。具身智能的GPT moment一定会在26年出现,只要在学术上能够证明就可以,快的话就在上半年。当模型能力快速攀升的时候,融资就会变得很火热。
前两天智谱和Minimax上市,我觉得是一个标志性的事件,虚拟AI开始向物理AI交棒了。无论是技术的进展、投资的热点、行业的关注度都要交放到物理AI上,接下来具身智能要重走一遍大语言模型从2023年到2025年走过的路。






京公网安备 11011402013531号