当前位置: 首页 » 资讯 » 新科技 » 正文

具身智能苦等“ChatGPT时刻”

IP属地 中国·北京 编辑:任飞扬 雪豹财经社 时间:2026-02-11 17:04:05

作者 | 曹全景

编辑 | 黄运涛

在人工智能的诸多分支中,具身智能是近一年间被高频提及的方向之一。

从工业机器人到服务机器人,从自动驾驶到人形机器,各条技术路线每隔一段时间就会被寄予一次“通用智能入口”的期待。

但与算法驱动的软件革命不同,它始终被现实世界的摩擦力拖慢节奏。

如果只看公开视频,具身智能的公共叙事几乎被同一组类似的画面占据:机器人跑得更稳了,抓得更准了,动作更连贯,任务更复杂。融资在加速,模型在迭代,具身智能似乎正处在一条确定无疑的上升曲线。

成功被循环播放,失败被剪掉——在实验室之外,另一种叙事同时存在:部署成本、稳定性、维护复杂度,仍在反复拉长商业化的时间表。

2月10日,原力灵机的首次技术开放日在北京中关村国家自主创新示范区展示中心举行。

原力灵机发布了三款核心产品:具身原生大模型 DM0、具身原生开发框架 Dexbotic 2.0、以及具身原生应用量产工作流 DFOL。这也是原力灵机成立近一年来,公司核心团队第一次集体公开亮相。

在当天的“Physical Al Next 圆桌论坛”上,来自产、学、研的五位嘉宾花了约一半的时间,讨论一个问题:

具身智能的ChatGPT时刻何时到来?

具身智能的ChatGPT时刻——这是一个混合了技术突破、产品体验与商业想象的复合概念。它既指模型能力的跃迁,也暗含一种期待:像ChatGPT一样,被非技术用户快速理解、低成本使用,并形成规模化扩散。

它带着某种技术乐观主义的兴奋。毕竟,大模型在ChatGPT发布后迅速从实验室走向全球数亿用户,完成了一次清晰可辨的跃迁。

人们自然期待,当人工智能拥有了身体——能行走、抓取、操作物理世界的实体——是否也会迎来类似的爆发点?

ChatGPT的成功,在于它提供了一种使用成本低、使用结果高度稳定且可重复验证的体验:任何人打开浏览器,输入一句话,几秒内就能获得输出。这种“即开即用”的特性,使其迅速成为通用工具。

更重要的是,大模型的扩散几乎不依赖新增物理基础设施:算力集中在云端,终端只是入口。对产业来说,这是一次典型的“轻资产跃迁”。

具身智能则完全不同。它是一个集硬件、算法、环境感知与运维体系于一体的物理系统。

北京智源人工智能研究院院长王仲远认为,即便模型能力在提升,也还远没有到具身智能的ChatGPT时刻。“尤其当具身智能的模型和硬件真机部署之后,我们发现离真正希望的大规模应用还是有比较大的gap。”

这个差距,源于物理世界固有的不确定性——地面是否平整、光照是否有变化、零部件是否存在微小公差、传感器是否会老化……任何一个变量都可能导致任务失败。

这也是为什么,在当前阶段,具身智能还仍停留在“可演示”而非“可大规模复制”的状态:一次成功,并不等于系统性成功。

更关键的是,同一台机器人,在不同时间、不同地点的表现可能截然不同。这意味着,它无法像ChatGPT那样,为所有用户提供统一、可预期的体验。而“时刻”的本质,恰恰依赖于这种集体可感知的突变。

清华大学电子工程系长聘教授汪玉认为,当前大多数机器人虽已有很大进步,但还是“局限在一个工作台上”,难以跨空间、跨模态完成连续复杂任务。

他甚至提出一个颠覆性设想:未来的住宅设计,或许需要加入“机器人适配”维度。也就是说,与其“苛求”机器人适应人类混乱的生活环境,不如让建筑和基础设施主动为机器优化。

雪豹财经社认为,在工业史上,这种路径并不陌生——流水线、电梯、自动门,都是先改变空间,再释放自动化价值。具身智能或许也需要类似的“环境工程”。

汪玉的观点也揭示了大模型和具身智能的一大不同:大模型运行在高度标准化的数字世界,而具身智能却要闯入一个为人类而非机器设计的物理世界。前者是规则清晰的棋盘,后者是充满噪声的旷野。

究竟该如何定义ChatGPT时刻?

在阶跃星辰创始人、CEO姜大昕看来,一个标志性的东西就是零样本。“零样本去做泛化,给它任何一条指令,即使以前没有见过,它也可以回答出问题,这和原来的自然语言处理是完全不一样的,这是为什么ChatGPT时刻大家觉得非常兴奋。”

如果对比自然语言和具身智能,姜大昕觉得,具身智能的“ChatGPT时刻”会更加困难一些。他进一步解释称:具身智能的泛化涉及场景、任务、目标等多个维度,在哪个维度上定义“突破”,本身就缺乏共识。

单纯技术维度的突破,并不必然等价于产品或产业维度的拐点。这种错位,正是“ChatGPT时刻”在具身智能领域被反复讨论、却难以实现的原因。

当连“成功”的标准都无法统一,“时刻”自然沦为模糊修辞。

真正贴近商业落地的创业者,正在转向更务实的定义。原力灵机联合创始人、CEO唐文斌心中的具身智能ChatGPT时刻,是它变得有用、可信赖,并能够在投资回报率(ROI)上算明白。

唐文斌坦言,“虽然行业非常火爆,繁花似锦,但我们实际上整个(具身)智能的能力还在蹒跚学步的阶段。”

星海图创始人、CEO高继扬则从产业链角度指出,大模型是“模型即产品”。大语言模型的终端是手机、电脑,渠道是社交媒体的传播。模型好了,整个商业化、产业化的链条马上就具备了。而具身智能的链条极长,从供应链、整机组装到数据闭环、售后服务等,算法反而是传播周期较短的一环。

这意味着,具身智能的商业化节奏,更兼有制造业的特性:资本回收慢、失败成本高,任何一环掉链子,都会放大整体风险。单一技术的突破,很难撬动整个系统的商业化进程。“如果从业务产线的角度来说,具身智能的ChatGPT时刻,是我们真的看到它在某些限定范围内具备商业价值的一个时刻。”高继扬说。

对具身智能而言,“ChatGPT时刻”更像一个外借的隐喻,而非可被复制的路径。

具身智能真正的分水岭,或许并不表现为一次全民围观的技术奇迹,而是某一天,它在工厂、仓库、园区里悄然变成“离不开但不被讨论”的存在。

但在这个终局来临之前,它的成熟将更像基础设施的演进——缓慢、无声,却不可或缺。

如果说大模型证明了算法的爆发力,那么具身智能考验的,则是整个产业系统的耐力。

在这场没有“神迹”的长跑中,胜出者或许不是算法最炫酷的那一家,而是最懂供应链、最能跑通真机闭环、最愿意沉入具体场景的那一方。

封面《机器人总动员》剧照

END

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。