新立场
2026年4月16日,腾讯和阿里在同一天各自发布了一款「世界模型」产品。前者是开源的混元3D世界模型2.0(HY-World 2.0),后者是主打实时交互的HappyOyster。这种巧合在科技行业并不罕见,竞争对手盯着彼此的发布节奏,谁也不想慢半拍。
过去两年,围绕「世界模型」的讨论在学术界和产业界一直持续升温,但大多停留在预言和争论层面。真正把这个话题推向公众视野的,是meta前首席AI科学家杨立昆(Yann LeCun)在2025年底MIT研讨会上的一番话。他说,三到五年内,世界模型将取代LLM成为主流AI架构,没有理智正常的人还会用我们今天这种大语言模型。
这话在硅谷得罪了不少人,也让「世界模型」这个词真正进入了主流讨论。
杨立昆的预言是否会成真,业界看法分歧极大。但有一件事正在发生:资本、人才和顶级实验室的注意力,都在向这个方向集中。李飞飞的World Labs已完成新一轮10亿美元融资,英伟达的Cosmos平台下载量突破500万次,杨立昆本人离开meta创立AMI Labs,完成10.3亿美元种子轮融资。
在国内,腾讯、阿里、生数科技、群核科技各自押注不同路线,中国玩家在这场竞争中的参与深度远超大多数外界观察者的预期。
在此背景之下,本文试图回答三个问题:世界模型和大语言模型的本质边界在哪里?全球的技术格局是如何分化的?以及中国玩家在这条赛道上的真实处境是什么?三个问题互相咬合,分开看都不完整。
大语言模型的盲区,以及世界模型从哪里开始
LLM的核心机制是在语言空间里找规律,给定前面的词,然后预测下一个词出现的概率。
这个机制在大规模数据上训练之后,涌现出了令人惊讶的能力:写作、推理、编程、翻译。但这种能力的底层,始终是统计意义上的语言规律,而不是对物理世界的真实理解。LLM知道「玻璃杯掉到地上会碎」,是因为这个句子在训练数据里出现过无数次,并不是因为它理解了弹性模量、应力传导和冲击能量。对它来说,「重力」是一个频繁与特定语境共现的词语,却不是一个可以在新场景里推广应用的物理规律。
这个区别在聊天、摘要、代码生成这类任务里无关紧要,LLM已经足够好用。但当AI需要和物理世界发生真实的交互,局限就变得清晰起来。
让机器人规划一条从桌边绕过障碍物取到杯子的路径,需要理解三维空间、物体的形状和质量、动作的力度和方向;让自动驾驶系统预测前方车辆在下一秒的位置,需要理解速度、加速度和驾驶意图;让一个AI角色在游戏世界里做出合理的行为,需要理解场景的因果结构,而不只是像素的视觉一致性。这些任务,语言建模的框架从根本上就不适合处理。
世界模型的出发点,正是填补这个空缺。简单说,世界模型预测的不是下一个词,而是下一个状态。物体在空间中的位置会怎么变化,一个动作会引发什么样的连锁反应,光线在不同材质表面的反射在视角移动后如何演变。它试图构建的是一个对物理现实的内部表征,让AI能够在这个表征上进行规划、预测和推断,而不只是在语言空间里进行模式匹配。
目前HappyOyster支持连续三分钟以上的实时导演级交互,在体验层面是国内这条路线目前最成熟的产品。但这条路线有一个内置的局限,那就是基于视频学习的世界模型,生成的是像素意义上的一致性,而不一定是物理意义上的真实性。画面看起来连贯,不代表背后有真实的三维结构;光影看起来合理,也不代表模型真正理解了光的传播规律。
HappyOyster也在技术文档里承认,漫游模式和导演模式目前尚未完全打通,长时序场景中的一致性仍有待提升。这也是整条路线当前阶段共同面临的工程挑战。
第二条路线是「3D资产化世界模型」,腾讯混元3D世界模型HY-World 2.0是这条路线目前最有代表性的产品。这条路线的关键转变是直接生成可编辑的三维几何资产,例如Mesh、3DGS、点云,这些文件格式可以无缝导入Unity和Unreal Engine等主流游戏引擎,进行二次编辑和物理交互。
现有的数据资产里能真正用于世界模型训练的比例,远低于对外宣称的规模。合成数据的争议进一步复杂化了这个问题:由于高质量真实三维数据的采集成本极高,很多团队转向用模拟器生成合成数据来补充训练集。
2024年《自然》杂志报道的研究趋势显示,持续使用合成数据训练模型,会导致模型性能随迭代轮次加速退化,这种现象研究者将其比作「近亲繁殖」。这个问题到今天还没有被普遍接受的解决方案,也意味着中国玩家的数据优势,比想象中更脆弱一些。
第三个问题是老生常谈的,商业化路径是一道尚未解开的题。大语言模型在ChatGPT出现之后,商业模式逐渐清晰API计费、企业订阅、垂直行业部署,链路已经跑通。
而世界模型到今天为止,没有一家公司拿出过可复制的商业闭环。腾讯的HY-World 2.0目前主要作为开发者工具开源,群核科技2025年96.9%的营收来自软件订阅服务(主要为酷家乐和Coohom产品),而空间智能相关业务(包括SpatialVerse等)仅占3.1%,其中核心的SpatialVerse平台仅贡献0.6%的营收。
游戏公司愿意为AI生成的3D场景付费,前提是生成质量能够真正替代或大幅缩减人工成本,目前看来差距尚存;影视行业的工作流整合周期比外界估计的要长得多;具身智能公司的采购规模尚未达到商业化所需的体量。世界模型目前更像是一张有巨大想象空间但兑现时间尚不确定的支票。
这既是当前的困境,也是未来的机会。毫无疑问,未来第一个在某个垂直场景里验证出可复制商业单元的玩家,将会获得远远超出比例的先发优势。
写在最后
大语言模型的崛起,证明了当足够大规模地预测语言,涌现出来的能力会远远超出设计者的预期。这种「规模涌现」的逻辑是否能够迁移到物理世界的建模上,正是「世界模型」最核心的赌注。
这在技术层面的挑战是真实的,物理世界的复杂度远高于语言空间。语言的基本单元是离散的词语,物理世界的状态是连续的、高维的,依赖于远比语法规则复杂的因果结构。数据的采集和标注成本比文本高出几个数量级,训练范式需要重新设计,评估方法也远不如NLP领域成熟。这条路比语言模型走过的路更长,更难,充满了未知的弯路。
但驱动力同样是真实的,机器人、自动驾驶、数字孪生、沉浸式内容等领域对「真正理解物理世界的AI」有着真实的刚需,而这种需求随着智能硬件的普及只会越来越强。
而中国在这场竞争里的优势和劣势都很具体:场景数据的积累和垂直行业的落地压力是有力的支撑,基础研究的深度和商业验证的路径是真实的短板。
腾讯和阿里在同一天发布世界模型产品,说明在中国最头部的科技公司内部,对AI下一个主战场的判断已经形成了共识。至于这种共识是否正确,要等时间来验证。
这可能比我们想象得更近,也比我们期望得更远。
*题图及文中配图来源于网络。





京公网安备 11011402013531号