当前位置: 首页 » 资讯 » 新科技 » 正文

世界模型,人工智能的下一个前沿?

IP属地 中国·北京 环球网资讯 时间:2026-06-22 12:43:00

环球时报

编者的话:近年来,全球的顶级科研团队在尝试打造名为“世界模型”的人工智能(AI)大模型,研究者认为世界模型才能通向真正的“智能”。本报记者近日在北京举行的一场科技大会上看到,使用世界模型的机器人已能解决一些高难度任务,比如给垃圾桶套上塑料袋,为鲜花包装上透明的外壳。接受采访的专家称,能在环境里预判后果、作出决策的世界模型是目前最被看好的方向之一,它有望让AI具备“推演未来”的能力。

机器人套垃圾袋,难在哪

一沓黑色垃圾袋挂在墙上的挂钩上,人形机器人缓缓靠近,伸出右手从垃圾袋的开口处扯下它,然后双手撑开垃圾袋,套在地上的垃圾桶里。套上后,机器人还不忘“整理”一番,让垃圾袋尽可能平整,就像人类套垃圾袋那样。这是《环球时报》记者近日在智源大会上看到的场景,证明人形机器人的“聪明”程度已经有了明显提升。


正在套垃圾袋的机器人 陈子帅摄

我们常见的机器人抓取物品,往往是抓取一个不会形变的硬物,这意味着机器人抓取物品的任何一角都会成功,但对柔性的塑料袋来说并不是这样。例如,当风吹过时,塑料袋就会改变形状,这对机器人的智力是极大的考验。此外,黑色的袋子从视觉上难识别,撕袋套袋的过程长、难控制,这些都是曾经制约机器人的“卡点”。而现在,这些技术堵点正在被一一化解。

这离不开世界模型的支持。过去,行业通常采用VLA(视觉-语言-行为大模型)来研发和训练机器人,如今许多科研机构选择采用世界模型来增强机器人的能力。现场的技术人员告诉《环球时报》记者,“VLA虽然也能执行上述任务,但在面对一些极端的情况时,机器人要尝试抓取好几次袋子才能成功,而世界模型在机器人抓取之前,就会‘预测’几种不同的抓法以及这些抓法能不能成功。世界模型的优势是纠正错误的能力。”

《环球时报》记者在现场看到,基于世界模型,中国的科研机构已经打造了多款清洁机器人,它们有望未来在酒店中应用。一个身材更“高大”的人形机器人站在餐桌前,桌上是吃剩的小龙虾壳、外卖盒等垃圾,机器人先是将虾壳放到了外卖盒里,然后将盒子扔到了一旁的外卖袋里,最后用抹布擦干净桌子,整个逻辑思路和人类清扫时一样。

除了打扫卫生外,机器人还完成了较高难度的“包装”任务。一台机器人左手拿起桌上的黑色锥形花盒,右手拿起透明的装饰壳套在了花盒外面。随后,机器人从花瓶中捏起鲜花,装在了花盒里,递给记者。机器人在拿起鲜花时,精准捏住了花枝部分,没有破坏花瓣。此外,它能够精准识别透明的包装壳,也是一大技术进步。

不过,由于世界模型的训练和数据量仍然有限,一些极高难度的任务仍然让机器人手足无措。比如,换被套。这项工作就算一个成年人做起来都不轻松,对机器人来说更是挑战。

“将被芯从被套里拿出来,再换上新的,这需要两台机器人相互配合,但依然存在很多‘意外的情况’。”现场的技术人员说。

从回答问题到规划行动

世界模型的一大重要用途,就是具身智能。回到技术本身,世界模型到底是什么?它和我们常见的能够聊天的DeepSeek、ChatGPT有什么不同?

新加坡南洋理工大学校长讲席教授、人工智能交叉研究院院长、人工智能系主任安波在大会期间告诉《环球时报》记者,DeepSeek这类大模型本质上是“语言模型”。它们是通过海量文字训练出来的,核心能力是预测“下一个词该是什么”,你可以把它想象成一个读遍了人类所有书籍的人:它知道世界被怎样描述过,所以能跟你侃侃而谈、写文章、答问题。但它对世界的了解,是“二手”的、从文字里学来的。“而世界模型想做的是另一件事,它要让AI在脑子里建立一个对世界如何运转的内部模拟器。就像我们人类,看到一个杯子被推到桌子边缘,不用算物理公式,也能预判它会掉下去摔碎,闭上眼睛也能想象‘如果我这样做,接下来会发生什么’。”

安波说,语言模型是“预测下一个词”,而世界模型是“预测下一个状态”,“也就是你做了某个动作之后,环境会怎么变。”这位学者表示,世界模型是为“会行动的智能体”服务的,让它能在环境里预判后果、进行决策,这对机器人、自动驾驶、具身智能特别关键。安波说,ChatGPT像是读遍了所有游泳教材的人,而世界模型是为了让 AI真正下水学会游泳而造的。

目前,包括meta前首席AI科学家杨立昆在内的许多AI大咖都在开发世界模型。分析认为,世界模型不再依赖概率推理,而是像人类大脑一样具备模拟和预判能力。去年11月,美国斯坦福大学教授、World Labs联合创始人李飞飞表示,现在以大型语言模型为代表的AI系统过于“纸上谈兵”,缺乏对现实空间、物理规律与因果关系的真正理解,具备空间智能的AI能够突破这一瓶颈,而要实现空间智能,就需要转向世界模型。

不过,目前各方对于世界模型的定义到底是什么,尚未达成统一共识。“现在大家是从不同的方法、不同的角度来看世界模型,但相信最终会殊途同归。”智源研究院院长王仲远对记者表示。

“想象几年后,你家有一个机器人助手。你说‘把厨房收拾一下’,它不会傻乎乎地乱抓,而是会在‘脑子里’先模拟一遍:这个红酒杯易碎,得轻拿,这盘还没吃完的菜要放进冰箱,那把刀得避开等等。它能预判每个动作的后果,之后才敢动手。这背后就是世界模型。”安波告诉《环球时报》记者,家务机器人是世界模型的一大重要应用场景。不过,王仲远告诉《环球时报》记者,“世界模型本身处在早期,对于具身智能实质性的影响和突破还有待观察。”

世界模型的另一大应用领域是自动驾驶。“现在的自动驾驶有时显得‘愣’,是因为它主要对当下情况作出反应。而有了强大的世界模型,车能像老司机一样‘预判’。这种对未发生之事的预演,是安全的关键。”安波还举了一个在他看来更“大胆”的例子——数字孪生与城市治理。“为一座工厂、一座城市建立可推演的数字分身,从而预测交通拥堵、能源消耗、突发事件的连锁反应,辅助决策。”安波说,当AI真正拥有了推演的能力,它就从一个回答问题的工具,变成了一个能帮我们推演世界、规划行动的伙伴。

未来十年的关键拼图

“我们希望具身智能和人一样,在任何场景都是‘通用’的,这就要求机器人在真实物理场景能够看、听和接触,世界模型就是帮助机器人理解世界万物的规律。从这一目标来看,世界模型的研发还处在初期阶段。”北京大学计算机学院教授黄铁军告诉《环球时报》记者。


正在插花的机器人 陈子帅摄

“客观来讲,世界模型现在正处在从实验室概念快速走向‘可用系统’的临界点上,已经能做出很惊艳的Demo,但离真正成熟、可大规模落地,还有一段路。”安波举例说,今年2月,自动驾驶公司Waymo把谷歌 DeepMind团队的Genie 3改造成了专门用于自动驾驶仿真的“Waymo世界模型”,用来生成现实中罕见的极端场景,比如突发龙卷风、路上遇到大象、金门大桥上下雪等来训练自动驾驶系统。“这说明世界模型已经开始在真实产业里干活了。”

包括安波在内的许多学者都认为,目前世界模型面临一项技术挑战——面对长程、开放式的任务,还没有展现出稳定可靠的表现。如今的模型生成短时间的画面很逼真,但只要让它连续往后推演得久一点,误差就会像滚雪球一样累积、放大,导致画面变糊、物体凭空消失、出现违反物理规律的情况。

“可以说我们造出了会‘做梦’的AI,但这个梦还不够稳定、不够符合物理现实,这也正是当前研究的核心攻坚点。”安波说。

打造像人一样聪明的通用人工智能(AGI)曾是许多AI企业的终极目标之一。那么,世界模型的能力真的如此强大吗?它会成为AI的下一个前沿领域吗?

“世界模型确实是目前最被看好的方向之一。可以说,它是通往AGI和具身智能的核心拼图,因为一个不理解物理世界的智能,很难说是完整的智能。”安波说。但这位学者同样认为,AI大模型的众多道路,究竟哪个更好,仍然有待观察,“大语言模型这条路还远没走到头,而世界模型还处在比较早期、技术上仍有很多硬骨头要啃的阶段。”

《环球时报》记者在近一年的实地采访中看到,国内许多科研机构和企业都开始转向开发世界模型。另外一个明显的趋势是,过去几年AI的关键词是“会说话”,也就是理解和生成语言,而现在更多科学家正在让AI从“会说”走向“会想”和“会做”。“未来3到5年都会是世界模型持续演进和迭代的阶段。”王仲远说。

对于世界模型与具身智能之间的关系,深圳市人工智能与机器人研究院具身智能中心主任刘少山对《环球时报》记者表示,世界模型试图对环境形成理解以及预测,具身智能强调在与环境互动中产生智能,因此世界模型可能是具身智能的下一个突破口。

“过去10年,我们教会了AI理解和生成信息,接下来10年的主题,很可能是教会它预测、规划和行动,而世界模型,恰恰是这个转向里最关键的一块拼图。”安波说。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。