当前位置: 首页 » 资讯 » 新科技 » 正文

浙江大学联合阿里巴巴等机构推出"世界奥林匹克"

IP属地 中国·北京 科技行者 时间:2026-06-17 18:30:22


这项由浙江大学、阿里巴巴达摩院、香港科技大学、莫纳什大学及阿里巴巴TRE联合完成的研究,于2026年6月9日以预印本形式发布,论文编号为arXiv:2606.11129v1,归属计算机视觉领域(cs.CV)。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。

你有没有看过那种AI生成的视频,画面精美流畅,乍看之下几乎以假乱真,但仔细一瞧,里面的东西就是哪里不对劲——一个苹果悬浮在半空中,一堵墙在下一秒突然消失,或者明明上一秒角色在向左走,下一秒背景却莫名换了个完全不同的场景?这种违和感,正是当前AI视频生成领域最核心的挑战所在。

AI生成视频的技术近年来飞速发展,人们开始期待这些模型不再只是"画面生成器",而是真正的"世界模拟器"——一个能预测物体如何运动、场景如何演变、并根据你的操作做出合理响应的虚拟世界引擎。这种能力在游戏模拟、机器人训练和真实场景重建等领域有着极其重要的价值。问题是,我们怎么知道一个AI视频模型到底够不够格称为"世界模拟器"?

目前行业内有一些评测基准,比如VBench系列,主要衡量视频的画质好不好、色彩美不美、动作流不流畅。这些评测就像给一道菜打分时只看摆盘,却不管味道和食材是否合规。一段AI生成的视频,哪怕画面再美,如果里面的物理定律是乱的、三维空间是崩的、交互逻辑是混乱的,它在真实应用中就是不可靠的。

正是为了填补这个空白,研究团队设计了一套名为**WorldOlympiad(世界奥林匹克)**的全新评测框架。这个名字里的"铁人三项"比喻,贯穿了整个研究的核心思路:就像铁人三项运动要求选手同时精通游泳、骑行和长跑,WorldOlympiad要求一个AI视频世界模型同时通过三个赛道的考验——物理赛道、几何赛道和交互赛道。只有三项都过关,才算真正意义上的"世界模拟器"。

一、为什么我们需要一场"铁人三项"式的考验?

在理解这项研究的创新之处之前,不妨先思考一个问题:如果你要招聘一名建筑师,你会怎么考核他?光看他画的效果图漂不漂亮,显然不够。你还得考察他对结构力学的理解、对三维空间的把握,以及他是否能根据客户的需求灵活调整方案。AI视频世界模型也是同理。

研究团队发现,现有的评测工具存在几个明显的短板。第一,它们大多关注"短视频",通常只评估五到十秒的片段,而真实的世界模拟往往需要连续生成几分钟甚至更长的视频,短片段表现好不代表长视频也能保持一致。第二,它们几乎完全聚焦于视觉质量,而忽略了物理规律、三维空间结构和交互控制这三个对"世界模拟"至关重要的维度。第三,现有的评测通常只针对单一场景,比如只测游戏视频或只测机器人操作视频,无法在一个统一框架下跨场景比较不同模型的能力。

WorldOlympiad的诞生,正是为了回答一个迄今无人能给出完整答案的问题:现有的长视频生成流程,在多领域、长时程、交互式的条件下,真的能胜任"通用视频世界模型"这个角色吗?

二、"铁人三项"的三个赛道是什么?

WorldOlympiad的核心架构就是三个相互独立又互相补充的评测赛道,每个赛道都针对世界模型的一种关键能力进行诊断。

**物理赛道**,考核的是AI生成的视频是否遵守现实世界的物理规律。这听起来理所当然,但实际上很多AI视频会犯低级错误。研究团队设计了一套覆盖三大物理领域、共十四条具体规则的测试体系。

在力学方面,测试覆盖了四个具体场景:重力(悬空的物体应该向下落,而不是飘在空中)、浮力(密度大的物体应该沉入水中,而不是漂浮在表面)、压缩(受力的软性材料应该发生形变,而钢铁结构在没有足够冲击力时不应该弯曲)、以及碰撞(两个物体相撞后,应该有合理的动量传递、弹跳或破碎)。

在热力学方面,测试涵盖了六种相变过程:熔化(受热固体应逐渐变成液体)、升华(某些固体应直接变成气体而不经过液态阶段)、气化(液体受热应变成蒸汽)、凝结(气体冷却应形成液滴)、凝华(气体直接变成固体结晶)以及凝固(液体冷却应变成固体)。

在材料性质方面,测试覆盖四个方向:颜色混合(红色和蓝色混合应得到紫色,而不是随机颜色)、溶解性(盐或糖放入水中应慢慢溶解消失)、硬度(布料应该弯折,而金属应该保持形状)、可燃性(木头应该能被点燃,并产生火焰和烟雾)。

评测的具体流程分两步走。第一步,用一个多模态大语言模型(可以理解为一个能看懂视频又能理解文字的AI评判员)先判断这条规则在参考视频中是否"有据可查"——比如如果一段机器人操作视频里完全没有液体,那"浮力"这条规则就自动跳过,不参与评分。第二步,对于确实相关的规则,再用SAM3(一种能自动识别和标注视频中运动物体的工具)对视频里的关键物体进行轮廓标注,让评判员更清晰地看到物体的运动轨迹,然后再判断生成视频是否遵守了对应的物理规则。最终的物理得分是所有适用规则的合规率平均值。

**几何赛道**,考核的是AI生成的视频在三维空间上是否前后一致。这个赛道的逻辑可以用一个生活化的比喻来理解:你用手机拍一段绕着一棵树走的视频,树的位置、形状、和周围环境的相对关系,应该在整段视频里保持稳定——不会忽然多出来一根树枝,也不会从正面看到五层楼变成侧面看只有三层。

几何赛道的技术实现相当精妙,分三个子指标。第一个指标叫"重建得分",做法是从生成视频中均匀抽取最多32帧画面,用Depth Anything 3(一款能从普通视频中估算深度和三维结构的工具)重建出一个高斯散射(Gaussian Splatting)场景——这个过程相当于让AI从一段二维视频里重新"脑补"出背后的三维世界——然后从原始相机角度重新渲染这个三维世界,再让评判员打分,看重建出来的场景和原始视频在空间结构上是否匹配。第二个指标叫"元视角得分",是从一个离场景中心最远的全新视角去渲染这个重建场景,看从一个"上帝视角"观察时,这个三维世界是否仍然合理——如果三维结构本来就是糊弄出来的,换个角度一看就会穿帮。第三个指标叫"轨迹得分",是把重建过程中恢复出来的相机运动轨迹,和参考视频里的相机运动轨迹进行比对,计算路径形状相似度、运动幅度一致性和相机位置误差等多个维度的综合评分。最终的几何得分,是三个子指标的平均值。

**交互赛道**,考核的是AI世界模型能否根据用户给出的控制指令,生成前后连贯、逻辑一致的长视频。这个赛道的设计背景,来自于世界模型实际使用时的"分块生成"模式:用户给出第一段指令,AI生成第一段视频;用户再给出第二段指令,AI在看到第一段视频的基础上生成第二段;如此循环,最终拼成一段完整的长视频。这个过程对AI的要求极高,既要每一段都准确响应当前指令,又要在段与段之间保持场景、人物、物体的连续性,还要保证整段视频从头到尾是流畅一致的。

交互赛道的评分由两个部分组成。第一部分是CLIP语义对齐得分,做法是从每段生成视频中均匀抽8帧画面,用CLIP模型(一种能同时理解图像和文字的AI)计算每帧画面和对应文字描述之间的相似度,得分范围在零到一之间。由于CLIP的原始相似度数值较小,研究团队设定了两个固定阈值(0.20和0.40),把原始得分压缩映射到零到一的区间,作为辅助语义信号。第二部分是多模态大语言模型结构化评判,在三个层级上分别打分:先对每段视频单独打分(视觉质量、文字对齐、综合得分);再对相邻两段视频的交接处打分(过渡是否流畅);最后对整段拼接起来的完整视频打分(长程一致性、全局文字对齐、全局综合得分)。三个层级的综合得分各占三分之一,再以九比一的比例与CLIP辅助分混合,得出最终的交互得分。

最终的WorldOlympiad总分,是物理得分、几何得分和交互得分的等权平均值——三个赛道各占三分之一,没有任何一个赛道可以被忽视。

三、测试用的视频从哪里来?

数据集的质量直接决定评测结果的可信度。研究团队为WorldOlympiad构建了一个包含一千段高质量长视频的数据集,覆盖三个截然不同的应用场景,确保评测的全面性。

机器人操作场景贡献了四百段视频,来源是RoboCOIN——一个开源的双臂机器人操作数据集。选择这个数据源,是因为双臂机器人操作场景天然包含了大量物理交互:夹爪的抓取和释放、物体的位置变化、接触时的力学响应,这些都是考验世界模型物理理解能力的理想素材。研究团队从下载的视频中人工筛选出四百段,确保视频质量和内容多样性。

游戏场景贡献了四百段视频,来源是GameGen-X——一个开放世界游戏视频数据集。由于游戏视频通常很长,研究团队先把每段长视频按六十秒为单位切成短片,再从中选取四百段用于测试。游戏场景的特殊价值在于它天然包含了大量交互元素:玩家控制角色移动、施展技能、与环境互动,这些都是测试交互赛道的理想素材。

真实世界场景贡献了两百段视频,来源是LVD-2M——一个带有时序密集字幕的长镜头视频数据集。研究团队从中筛选出时长超过六十秒且运动幅度评分高于五十分的视频,这样的筛选标准确保了视频中有足够丰富的视觉运动,适合测试几何一致性和开放域运动理解能力。

有了视频还不够,研究团队还需要为每段视频生成详细、准确的分块描述,作为后续生成和评测的基础。这个工作通过一个精心设计的三阶段流程来完成,全程使用Gemini-3-Pro-Preview作为核心语言理解工具。

第一阶段是分块,对每段视频识别出主要的连续执行区间,并切分成最多六段不重叠、不留空隙的时间片段。对游戏视频,切分的依据是战斗、移动、技能释放、镜头转换等游戏事件;对真实世界视频,切分的依据是连续的视觉动作、物体运动、交互事件和视角变换。

第二阶段是描述,对每段视频片段分别生成两个字段:一个是动作字段,记录摄像机的运动方向(用上下左右前后来标记,没有明显运动则记为"无");另一个是字幕字段,用英文描述场景中的可见物体、事件、交互和结果。值得注意的是,动作字段严格只记录摄像机运动,不记录画面里人物或物体的动作,以确保不同视频之间的动作描述具有可比性。

第三阶段是精炼,把所有分块字幕放在一起,结合完整视频做整体回顾和修正,修正前后章节中可能出现的细节不一致、术语不统一、镜头运动标注有误等问题。这个精炼步骤对长视频评测尤其重要,因为相邻片段往往共享场景背景、人物状态和物体位置,前后描述不一致会直接影响评测的可靠性。

四、八个模型参加了这场"奥林匹克"

研究团队通过OpenWorldLib(一个整合了多种世界模型生成流程的统一代码库)评测了八个代表性的视频世界模型,覆盖三种类型。

游戏类世界模型有两个参赛者。Matrix-Game 2.0是一个开源的实时流式交互世界模型;LingBot-World则是一个规模达到140亿激活参数的大型模型,专注于开放世界游戏视频的交互生成。

机器人类世界模型也有两个。Cosmos-Predict-2.5是一个仅有20亿参数的模型,但专门为物理世界预测任务优化;WoW(World Omniscient World Model)则专注于具身交互场景中的机器人操作。

通用长视频类世界模型有四个。Rolling Forcing是一种基于块扩散框架的实时自回归长视频生成方法;LongLive通过KV缓存机制实现长程一致性;Yume-1.5是一个文字控制的交互世界生成模型;Hunyuan-WorldPlay则专注于长期几何一致性的实时交互世界建模。

为了保证评测的公平性,所有模型均使用各自官方默认的生成配置。由于不同模型的分块生成方式和每块的时长设置不尽相同,研究团队对分块描述中的时间比例信息做了动态映射,确保每个模型都能在其原生生成配置下工作,同时保留原始分块描述的时序比例关系。对于有显式长程记忆机制的模型(如Rolling Forcing),保留其官方的记忆管理策略;对于没有专用长程记忆模块的模型(如WoW),通过视频续写的方式实现长视频生成,即把上一段生成的视频作为下一段生成的条件输入。

五、竞技结果:谁赢了,谁又输在哪里?

评测结果揭示了几个非常有价值的规律,值得细细品味。

从总体排名来看,LingBot-World以0.683的总分位居第一,Cosmos-Predict-2.5以0.671分紧随其后,Rolling Forcing(0.610)、Yume-1.5(0.604)和LongLive(0.584)分列三至五位,Hunyuan-WorldPlay(0.477)、WoW(0.434)和Matrix-Game 2.0(0.231)分别排在第六至第八位。

物理赛道上,多个模型已经表现出相当强劲的能力。LingBot-World以0.942的物理得分领跑,Cosmos-Predict-2.5以0.906紧随,Rolling Forcing(0.873)、LongLive(0.863)和Yume-1.5(0.863)也都达到了不错的水平。这说明主流的大型视频生成模型,经过大规模数据训练后,已经开始内化很多常见的物理规律——重力、碰撞、接触这类力学知识掌握得相对较好。

不过,物理能力的分布并不均匀。细分来看,力学规则(重力、碰撞等)的合规率普遍较高,而热力学(熔化、升华等相变过程)和材料性质(颜色混合、溶解等)的合规率则普遍偏低,甚至在某些场景下接近于零——比如在机器人操作场景中,几乎所有模型的热力学得分都是零,因为这类场景根本没有热力学相关现象,该维度自动被排除。Matrix-Game 2.0的物理得分仅有0.325,说明即便是在游戏这个相对"宽松"的物理环境下,它也经常生成违反基本物理规律的画面。

几何赛道上,所有模型的表现都相当不理想,这是本次评测中最引人关注的发现之一。即便是在这个维度上得分最高的Hunyuan-WorldPlay,也只有0.424分,其余大多数模型都集中在0.25到0.40之间的偏低区间。Hunyuan-WorldPlay之所以在几何一致性上表现相对较好,是因为它的交互方式主要依赖摄像机视角控制——模型被训练成在摄像机移动时保持场景空间结构的稳定,这自然有助于几何一致性的维护。然而这也带来了一个代价:视角控制是一种相对受限的交互方式,不需要模型理解复杂的物体操作、角色行为或多步骤状态变化。因此Hunyuan-WorldPlay虽然几何得分较高,整体总分却只有0.477,排在第六位。这揭示了当前世界模型设计中的一个核心矛盾:擅长保持空间几何结构的模型,往往在开放式交互能力上有所欠缺;而交互能力强的模型,往往又在三维空间一致性上表现较弱。

交互赛道上,LingBot-World(0.734)和Cosmos-Predict-2.5(0.707)明显领先于其他模型,而Matrix-Game 2.0(0.113)和WoW(0.345)则差距显著。从子指标来看,分块得分(单段视频的指令跟随能力)、过渡得分(相邻段之间的连贯性)和全局得分(整段长视频的一致性)之间存在明显的层级关系——通常单段表现要优于过渡表现,过渡表现又要优于全局一致性,说明模型在长程记忆和跨段状态保持方面仍然面临严峻挑战。

从跨场景的表现来看,不同模型在不同应用领域之间的迁移能力差异显著。以WoW为例,它在机器人操作场景(专门针对具身交互设计的领域)的总分是0.502,而在游戏场景的总分只有0.368,在真实世界场景的总分是0.415。这说明,针对特定领域的专项训练,并不总能带来跨领域的迁移能力。相比之下,LingBot-World和Cosmos-Predict-2.5在三个场景下的得分都相当稳定,这表明充分的领域专项训练在带来专项能力的同时,也可以提供一定程度的跨域泛化能力——前提是训练所积累的"世界知识"能够跨越原始训练域边界。

六、自动评分和真人打分,结论一致吗?

一个评测框架再精妙,如果和真实人类的判断相差甚远,也是白费力气。为了验证WorldOlympiad的评测结果是否和人类的真实感受一致,研究团队进行了一项专项的人类偏好对齐实验。

实验请了五位标注员,从评测集中随机抽取二十个提示词场景,对八个模型两两配对,共产生二十八对组合,每个场景下都要对所有二十八对进行评判,五位标注员独立打分,总计产生两千八百个独立偏好标签。标注员被要求从视觉质量、物理可信度、时序连贯性和交互保真度四个维度综合判断哪段视频更好,或者两段相当。每位标注员都不知道视频来自哪个模型,避免主观偏向。

结果令人满意:人类偏好排名和WorldOlympiad自动评测排名的斯皮尔曼秩相关系数达到了0.95(满分为1.0),说明两套排名高度吻合。仅有的两处小偏差,出现在LongLive和Yume-1.5之间(自动评测认为Yume-1.5更好,人类认为LongLive略优)以及Matrix-Game 2.0和WoW之间(自动评测认为WoW更好,人类认为Matrix-Game 2.0略优)。这两对模型的得分本来就很接近,产生轻微偏差是正常的。整体来看,WorldOlympiad的自动评测能够可靠地反映人类对视频世界模型质量的真实判断。

七、失败的模样:那些被评测"照出来"的问题

数字得分固然重要,但研究团队通过大量定性案例分析,展示了WorldOlympiad能够诊断出的几种典型失败模式,这些案例让抽象的评分变得具体可感。

在物理失败模式中,最常见的问题是物体无缘无故地违反重力。一段机器人操作视频里,一个绿色苹果悬浮在半空中,既没有支撑物,也没有任何解释,只是就这么飘着;另一段视频里,机器人的夹爪在没有任何接触的情况下,远处的物体就开始移动,完全违反了物体只有在受力时才会运动的基本原理。

在几何失败模式中,最典型的问题是场景结构的"幻觉"——视频里的一个足球门在某几帧里突然发生形变,原本方正的门框莫名扭曲;或者一根石柱凭空出现在画面中,上一帧还完全不存在。这类问题在正常观看时可能只有一瞬间的违和感,但通过WorldOlympiad的三维重建检测,会被清晰地"照出来"——因为一个真正三维一致的场景,是无法凭空产生或消失结构性物体的。

在交互失败模式中,有两类特别值得关注。一类是"运动趋于静止":视频开始时还有正常的人物或物体运动,但随着视频推进,画面逐渐变得越来越静止,最后几乎定格,说明模型在长程生成中丧失了维持动态内容的能力。另一类是"镜头漂移混乱":明明指令要求摄像机向前推进,但生成的视频里摄像机却在随机摇晃,完全不响应控制信号。

这些具体的失败案例,清晰地说明了为什么仅靠视觉质量评分是不够的——很多失败在画面层面看起来"还行",只有放到物理规律、三维空间或交互逻辑的框架下检验,才会暴露出来。

说到底,WorldOlympiad这项研究告诉我们一件很重要的事:当我们说一个AI系统能"模拟世界"时,我们到底在说什么。一段画面精美的AI视频,和一个真正理解物理规律、空间结构和交互逻辑的"世界模型",差距可能比我们想象的要大得多。

从这次评测的结果来看,现有最好的视频世界模型,在物理理解上已经有了相当不错的基础——常见的力学规律基本上能被遵守;但在三维几何一致性上,几乎所有模型都还差得很远,最好的也只有0.424分;而在长程交互控制上,则只有少数模型(主要是经过大规模领域专项训练的大型模型)才能表现出比较稳定的能力。

这个评测框架的意义,不只是给当前模型打一个分数,更是为未来的研究指明了方向:我们需要让AI不仅会"画视频",更要让它真正"理解"视频背后的物理规律和空间逻辑。这对游戏开发、机器人训练、虚拟现实乃至自动驾驶模拟,都有着非常直接的实用价值。

归根结底,一个真正可靠的视频世界模型,需要同时通过物理、几何和交互这三项考验。只会"看起来真实"是远远不够的——它还需要"表现得真实"。这场奥林匹克,人工智能还在备战中。

对这项研究有兴趣的读者,可以通过arXiv编号2606.11129查阅完整论文,或访问研究团队的项目主页获取更多技术细节和可视化案例。

Q&A

Q1:WorldOlympiad评测框架和VBench有什么本质区别?

A:VBench主要评估视频的画面质量、动作流畅度和语义对齐,相当于给视频的"外表"打分。WorldOlympiad则针对世界模型的三种核心能力:物理规律是否被遵守、三维空间结构是否前后一致、以及长程交互控制是否可靠。换句话说,VBench问"视频好不好看",WorldOlympiad问"这个视频里的世界是否真实可信"。两者关注的维度完全不同,WorldOlympiad更关心视频作为"世界模拟器"的功能性。

Q2:WorldOlympiad的几何评测为什么用高斯散射重建而不是直接比较帧画面?

A:直接比较帧画面只能发现"同一位置看起来不一样",但无法发现"从不同角度看时空间结构不对"。高斯散射重建相当于把AI生成的视频反推成一个三维场景,然后从新的角度和轨迹重新"看"这个场景。如果原始视频的三维结构本来就是不一致的,重建出来的场景就会出现扭曲、缺失或虚假结构,这些问题在直接比较帧画面时完全不可见,但通过三维重建可以清晰暴露。

Q3:LingBot-World为什么在WorldOlympiad上排名第一,它的关键优势是什么?

A:LingBot-World是一个140亿激活参数的大型模型,经过大规模游戏领域专项训练。它的核心优势在于物理得分(0.942)和交互得分(0.734)同时处于高位,说明它既能生成遵守物理规律的内容,又能在多段视频的分块生成中保持指令跟随和场景连贯性。研究表明,针对特定领域的持续专项训练,积累的世界知识可以迁移到其他评测场景,而不仅限于原始训练域。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新