当前位置：首页 » 资讯 » 新科技 » 正文

世界模型，人工智能的下一个前沿？

IP属地中国·北京 环球网资讯 时间：2026-06-22 12:43:00

环球时报
编者的话：近年来，全球的顶级科研团队在尝试打造名为“世界模型”的人工智能（AI）大模型，研究者认为世界模型才能通向真正的“智能”。本报记者近日在北京举行的一场科技大会上看到，使用世界模型的机器人已能解决一些高难度任务，比如给垃圾桶套上塑料袋，为鲜花包装上透明的外壳。接受采访的专家称，能在环境里预判后果、作出决策的世界模型是目前最被看好的方向之一，它有望让AI具备“推演未来”的能力。
机器人套垃圾袋，难在哪
一沓黑色垃圾袋挂在墙上的挂钩上，人形机器人缓缓靠近，伸出右手从垃圾袋的开口处扯下它，然后双手撑开垃圾袋，套在地上的垃圾桶里。套上后，机器人还不忘“整理”一番，让垃圾袋尽可能平整，就像人类套垃圾袋那样。这是《环球时报》记者近日在智源大会上看到的场景，证明人形机器人的“聪明”程度已经有了明显提升。

正在套垃圾袋的机器人陈子帅摄
我们常见的机器人抓取物品，往往是抓取一个不会形变的硬物，这意味着机器人抓取物品的任何一角都会成功，但对柔性的塑料袋来说并不是这样。例如，当风吹过时，塑料袋就会改变形状，这对机器人的智力是极大的考验。此外，黑色的袋子从视觉上难识别，撕袋套袋的过程长、难控制，这些都是曾经制约机器人的“卡点”。而现在，这些技术堵点正在被一一化解。
这离不开世界模型的支持。过去，行业通常采用VLA（视觉-语言-行为大模型）来研发和训练机器人，如今许多科研机构选择采用世界模型来增强机器人的能力。现场的技术人员告诉《环球时报》记者，“VLA虽然也能执行上述任务，但在面对一些极端的情况时，机器人要尝试抓取好几次袋子才能成功，而世界模型在机器人抓取之前，就会‘预测’几种不同的抓法以及这些抓法能不能成功。世界模型的优势是纠正错误的能力。”
《环球时报》记者在现场看到，基于世界模型，中国的科研机构已经打造了多款清洁机器人，它们有望未来在酒店中应用。一个身材更“高大”的人形机器人站在餐桌前，桌上是吃剩的小龙虾壳、外卖盒等垃圾，机器人先是将虾壳放到了外卖盒里，然后将盒子扔到了一旁的外卖袋里，最后用抹布擦干净桌子，整个逻辑思路和人类清扫时一样。
除了打扫卫生外，机器人还完成了较高难度的“包装”任务。一台机器人左手拿起桌上的黑色锥形花盒，右手拿起透明的装饰壳套在了花盒外面。随后，机器人从花瓶中捏起鲜花，装在了花盒里，递给记者。机器人在拿起鲜花时，精准捏住了花枝部分，没有破坏花瓣。此外，它能够精准识别透明的包装壳，也是一大技术进步。
不过，由于世界模型的训练和数据量仍然有限，一些极高难度的任务仍然让机器人手足无措。比如，换被套。这项工作就算一个成年人做起来都不轻松，对机器人来说更是挑战。
“将被芯从被套里拿出来，再换上新的，这需要两台机器人相互配合，但依然存在很多‘意外的情况’。”现场的技术人员说。
从回答问题到规划行动
世界模型的一大重要用途，就是具身智能。回到技术本身，世界模型到底是什么？它和我们常见的能够聊天的DeepSeek、ChatGPT有什么不同？
新加坡南洋理工大学校长讲席教授、人工智能交叉研究院院长、人工智能系主任安波在大会期间告诉《环球时报》记者，DeepSeek这类大模型本质上是“语言模型”。它们是通过海量文字训练出来的，核心能力是预测“下一个词该是什么”，你可以把它想象成一个读遍了人类所有书籍的人：它知道世界被怎样描述过，所以能跟你侃侃而谈、写文章、答问题。但它对世界的了解，是“二手”的、从文字里学来的。“而世界模型想做的是另一件事，它要让AI在脑子里建立一个对世界如何运转的内部模拟器。就像我们人类，看到一个杯子被推到桌子边缘，不用算物理公式，也能预判它会掉下去摔碎，闭上眼睛也能想象‘如果我这样做，接下来会发生什么’。”
安波说，语言模型是“预测下一个词”，而世界模型是“预测下一个状态”，“也就是你做了某个动作之后，环境会怎么变。”这位学者表示，世界模型是为“会行动的智能体”服务的，让它能在环境里预判后果、进行决策，这对机器人、自动驾驶、具身智能特别关键。安波说，ChatGPT像是读遍了所有游泳教材的人，而世界模型是为了让 AI真正下水学会游泳而造的。
目前，包括meta前首席AI科学家杨立昆在内的许多AI大咖都在开发世界模型。分析认为，世界模型不再依赖概率推理，而是像人类大脑一样具备模拟和预判能力。去年11月，美国斯坦福大学教授、World Labs联合创始人李飞飞表示，现在以大型语言模型为代表的AI系统过于“纸上谈兵”，缺乏对现实空间、物理规律与因果关系的真正理解，具备空间智能的AI能够突破这一瓶颈，而要实现空间智能，就需要转向世界模型。
不过，目前各方对于世界模型的定义到底是什么，尚未达成统一共识。“现在大家是从不同的方法、不同的角度来看世界模型，但相信最终会殊途同归。”智源研究院院长王仲远对记者表示。
“想象几年后，你家有一个机器人助手。你说‘把厨房收拾一下’，它不会傻乎乎地乱抓，而是会在‘脑子里’先模拟一遍：这个红酒杯易碎，得轻拿，这盘还没吃完的菜要放进冰箱，那把刀得避开等等。它能预判每个动作的后果，之后才敢动手。这背后就是世界模型。”安波告诉《环球时报》记者，家务机器人是世界模型的一大重要应用场景。不过，王仲远告诉《环球时报》记者，“世界模型本身处在早期，对于具身智能实质性的影响和突破还有待观察。”
世界模型的另一大应用领域是自动驾驶。“现在的自动驾驶有时显得‘愣’，是因为它主要对当下情况作出反应。而有了强大的世界模型，车能像老司机一样‘预判’。这种对未发生之事的预演，是安全的关键。”安波还举了一个在他看来更“大胆”的例子——数字孪生与城市治理。“为一座工厂、一座城市建立可推演的数字分身，从而预测交通拥堵、能源消耗、突发事件的连锁反应，辅助决策。”安波说，当AI真正拥有了推演的能力，它就从一个回答问题的工具，变成了一个能帮我们推演世界、规划行动的伙伴。
未来十年的关键拼图
“我们希望具身智能和人一样，在任何场景都是‘通用’的，这就要求机器人在真实物理场景能够看、听和接触，世界模型就是帮助机器人理解世界万物的规律。从这一目标来看，世界模型的研发还处在初期阶段。”北京大学计算机学院教授黄铁军告诉《环球时报》记者。

正在插花的机器人陈子帅摄
“客观来讲，世界模型现在正处在从实验室概念快速走向‘可用系统’的临界点上，已经能做出很惊艳的Demo，但离真正成熟、可大规模落地，还有一段路。”安波举例说，今年2月，自动驾驶公司Waymo把谷歌 DeepMind团队的Genie 3改造成了专门用于自动驾驶仿真的“Waymo世界模型”，用来生成现实中罕见的极端场景，比如突发龙卷风、路上遇到大象、金门大桥上下雪等来训练自动驾驶系统。“这说明世界模型已经开始在真实产业里干活了。”
包括安波在内的许多学者都认为，目前世界模型面临一项技术挑战——面对长程、开放式的任务，还没有展现出稳定可靠的表现。如今的模型生成短时间的画面很逼真，但只要让它连续往后推演得久一点，误差就会像滚雪球一样累积、放大，导致画面变糊、物体凭空消失、出现违反物理规律的情况。
“可以说我们造出了会‘做梦’的AI，但这个梦还不够稳定、不够符合物理现实，这也正是当前研究的核心攻坚点。”安波说。
打造像人一样聪明的通用人工智能（AGI）曾是许多AI企业的终极目标之一。那么，世界模型的能力真的如此强大吗？它会成为AI的下一个前沿领域吗？
“世界模型确实是目前最被看好的方向之一。可以说，它是通往AGI和具身智能的核心拼图，因为一个不理解物理世界的智能，很难说是完整的智能。”安波说。但这位学者同样认为，AI大模型的众多道路，究竟哪个更好，仍然有待观察，“大语言模型这条路还远没走到头，而世界模型还处在比较早期、技术上仍有很多硬骨头要啃的阶段。”
《环球时报》记者在近一年的实地采访中看到，国内许多科研机构和企业都开始转向开发世界模型。另外一个明显的趋势是，过去几年AI的关键词是“会说话”，也就是理解和生成语言，而现在更多科学家正在让AI从“会说”走向“会想”和“会做”。“未来3到5年都会是世界模型持续演进和迭代的阶段。”王仲远说。
对于世界模型与具身智能之间的关系，深圳市人工智能与机器人研究院具身智能中心主任刘少山对《环球时报》记者表示，世界模型试图对环境形成理解以及预测，具身智能强调在与环境互动中产生智能，因此世界模型可能是具身智能的下一个突破口。
“过去10年，我们教会了AI理解和生成信息，接下来10年的主题，很可能是教会它预测、规划和行动，而世界模型，恰恰是这个转向里最关键的一块拼图。”安波说。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

解决飞行器“失控”“失明”难题

马云带队插秧，吴泳铭、邵晓锋、蒋凡、吴泽明、蒋芳等到场

雷军：攻击我的人只是为了流量

小米YU7 GT创纽北自动驾驶圈速新纪录：10分29秒483开启新征程

小米“寻天”SUV谍照来袭原厂自带车顶帐篷瞄准户外露营市场

暑期回国研学新选择：北上深杭科技之旅，让孩子边玩边学收获满满

全站最新

解决飞行器“失控”“失明”难题

马云带队插秧，吴泳铭、邵晓锋、蒋凡、吴泽明、蒋芳等到场

雷军：攻击我的人只是为了流量

小米YU7 GT创纽北自动驾驶圈速新纪录：10分29秒483开启新征程

热门推荐

解决飞行器“失控”“失明”难题

马云带队插秧，吴泳铭、邵晓锋、蒋凡、吴泽明、蒋芳等到场

雷军：攻击我的人只是为了流量

字节切入网约车！豆包打车功能在北京、杭州开启灰度测试

马云率阿里高管下田插秧，以种田之道诠释AI战略深耕决心

谷歌DeepMind工程师：进顶尖AI实验室需具备目标感、毅力与数学成熟度

阿里与蚂蚁管理层集体插秧，以行动传递团结信心与AI发展决心

DeepMind工程师揭秘：进顶尖AI实验室，需目标感、毅力与超强数学力

马云携阿里高管下田插秧，周靖人现身力破离职不实传闻

xAI前联合创始人Babuschkin携豪华团队创业，欲打造真正属于个人的AI

第二代豆包AI手机将至：突破隐私困境，携手Agent开启智能协作新篇

8B“小模型”化身智慧调度官，携顶级AI解锁科学推理新境界

小米YU7 GT创纽北自动驾驶圈速新纪录：10分29秒483开启新征程

XREAL AURA空间计算眼镜发布开启沉浸式体验新纪元助力“浦东智造”

小米18 Pro Max主摄新突破：2亿像素超大底搭配LOFIC HDR 3.0技术登场