当前位置: 首页 » 资讯 » 新科技 » 正文

「视频世界模型」新突破:AI连续生成5分钟,画面也不崩

IP属地 中国·北京 机器之心Pro 时间:2025-12-31 18:10:58



当 Sora 让世界看到了 AI 生成视频的惊艳效果,一个更深层的问题浮出水面:如何让生成的视频不只是「看起来像」,而是真正理解并遵循物理世界的规律?这正是「视频世界模型」(Video World Model)要解决的核心挑战。当生成时长从几秒扩展到几分钟,模型不仅要画面逼真,更要在长时间尺度上保持结构、行为与物理规律的一致性。然而,误差累积与语义漂移往往导致长视频出现画面退化与逻辑崩坏 —— 这已成为衡量世界模型能力的关键瓶颈。

围绕这一挑战,上海人工智能实验室联合复旦大学、南京大学、南洋理工大学 S-Lab 等单位提出了LongVie 2—— 一个能够生成长达5 分钟高保真、可控视频的世界模型框架



LongVie 2 可自回归生成 3-5 分钟的超长可控视频

论文:https://arxiv.org/pdf/2512.13604项目主页:https://vchitect.github.io/LongVie2-project/GitHub:https://github.com/Vchitect/LongVie视频演示:https://www.youtube.com/watch?v=ln1kMNYj50Y


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

什么是理想的视频世界模型?

一个理想的视频世界模型,不应只是「生成得更久」,而应同时具备以下三项核心能力:

全面可控性(Comprehensive Controllability):能够在长时间生成过程中稳定响应多种控制信号,保持场景结构与运动意图不漂移;长期视觉保真(Long-term Fidelity):随着时间推进,画面质量不发生明显退化,不出现纹理崩塌或细节丢失;长程上下文一致性(Long-context Consistency):跨片段、跨时间保持语义、身份与物理规律的一致,避免「换世界式」断裂。

现有世界模型的瓶颈在哪里?

本文系统调研了当前主流的视频世界模型,发现一个共同问题:随着生成时长的增加,模型的可控性、视觉保真度与时间一致性会同步下降。



现有模型在长时间生成时的退化问题

LongVie 2:三阶段递进式训练

为系统性解决上述挑战,LongVie 2 设计了一套逐层递进的三阶段训练策略,从控制、稳定性到时间一致性层层强化:



LongVie 2 三阶段训练流程

阶段一:Dense & Sparse 多模态控制

通过引入稠密信号(如深度图)与稀疏信号(如关键点轨迹),为模型提供稳定且可解释的世界约束。这使生成过程不再完全依赖隐式记忆,从源头提升长程可控性。

阶段二:退化感知训练(Degradation-aware Training)

长视频生成中,质量衰减几乎不可避免。LongVie 2 的核心创新在于:在训练阶段主动「制造困难」——



退化感知训练示意图

利用 VAE 的多次 encode-decode 模拟重建误差;通过 加噪 + Diffusion 去噪 构造退化图像。

以此作为训练信号,使模型学会在不完美输入下保持稳定生成,显著增强长期视觉保真度。

阶段三:历史上下文建模

在生成过程中显式引入历史片段信息,并通过针对性 loss 约束相邻片段的衔接,使跨片段过渡更加自然顺畅,有效缓解长视频中的语义断裂与逻辑跳变问题。



三阶段训练效果对比

一图看懂 LongVie 2 框架

通过多模态控制、退化感知训练与历史上下文建模的协同设计,LongVie 2 将长视频生成从「片段拼接」提升为持续演化的世界建模过程:



LongVie 2 整体框架

从左至右,LongVie 2 首先将跨片段的稠密(深度)与稀疏(关键点)控制视频做全局归一化,并为所有片段采用统一的噪声初始化。随后在每一片段生成时,将全局归一化后的控制信号、上一片段的末帧与文本提示送入模型,逐步生成完整的长视频。

LongVie 2 能力展示

该研究将LongVie 2与 Go-With-The-Flow 和 Diffusion As Shader 进行了对比。结果显示,LongVie 2 在可控性方面表现显著优于现有方法:



与现有方法的可控性对比


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

消融实验也充分验证了三阶段训练的有效性:



消融实验结果

LongVGenBench

首个可控超长视频评测基准

当前缺乏面向可控长视频生成的标准化评测。为此,本文提出LongVGenBench—— 首个专为超长视频生成设计的基准数据集,包含100 个时长超过 1 分钟的高分辨率视频,覆盖真实世界与合成环境的多样场景,旨在推动该方向的系统研究与公平评测。

定量评估与用户主观测评结果显示,LongVie 2 在多项指标上达到SOTA 水平,并获得最高用户偏好度:





定量评测结果与用户研究

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。