当前位置：首页 » 资讯 » 新科技 » 正文

「视频世界模型」新突破：AI连续生成5分钟，画面也不崩

IP属地中国·北京 机器之心Pro 时间：2025-12-31 18:10:58

当 Sora 让世界看到了 AI 生成视频的惊艳效果，一个更深层的问题浮出水面：如何让生成的视频不只是「看起来像」，而是真正理解并遵循物理世界的规律？这正是「视频世界模型」（Video World Model）要解决的核心挑战。当生成时长从几秒扩展到几分钟，模型不仅要画面逼真，更要在长时间尺度上保持结构、行为与物理规律的一致性。然而，误差累积与语义漂移往往导致长视频出现画面退化与逻辑崩坏 —— 这已成为衡量世界模型能力的关键瓶颈。
围绕这一挑战，上海人工智能实验室联合复旦大学、南京大学、南洋理工大学 S-Lab 等单位提出了LongVie 2—— 一个能够生成长达5 分钟高保真、可控视频的世界模型框架

LongVie 2 可自回归生成 3-5 分钟的超长可控视频
论文：https://arxiv.org/pdf/2512.13604项目主页：https://vchitect.github.io/LongVie2-project/GitHub：https://github.com/Vchitect/LongVie视频演示：https://www.youtube.com/watch?v=ln1kMNYj50Y

https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg
什么是理想的视频世界模型？
一个理想的视频世界模型，不应只是「生成得更久」，而应同时具备以下三项核心能力：
全面可控性（Comprehensive Controllability）：能够在长时间生成过程中稳定响应多种控制信号，保持场景结构与运动意图不漂移；长期视觉保真（Long-term Fidelity）：随着时间推进，画面质量不发生明显退化，不出现纹理崩塌或细节丢失；长程上下文一致性（Long-context Consistency）：跨片段、跨时间保持语义、身份与物理规律的一致，避免「换世界式」断裂。
现有世界模型的瓶颈在哪里？
本文系统调研了当前主流的视频世界模型，发现一个共同问题：随着生成时长的增加，模型的可控性、视觉保真度与时间一致性会同步下降。

现有模型在长时间生成时的退化问题
LongVie 2：三阶段递进式训练
为系统性解决上述挑战，LongVie 2 设计了一套逐层递进的三阶段训练策略，从控制、稳定性到时间一致性层层强化：

LongVie 2 三阶段训练流程
阶段一：Dense & Sparse 多模态控制
通过引入稠密信号（如深度图）与稀疏信号（如关键点轨迹），为模型提供稳定且可解释的世界约束。这使生成过程不再完全依赖隐式记忆，从源头提升长程可控性。
阶段二：退化感知训练（Degradation-aware Training）
长视频生成中，质量衰减几乎不可避免。LongVie 2 的核心创新在于：在训练阶段主动「制造困难」——

退化感知训练示意图
利用 VAE 的多次 encode-decode 模拟重建误差；通过加噪 + Diffusion 去噪构造退化图像。
以此作为训练信号，使模型学会在不完美输入下保持稳定生成，显著增强长期视觉保真度。
阶段三：历史上下文建模
在生成过程中显式引入历史片段信息，并通过针对性 loss 约束相邻片段的衔接，使跨片段过渡更加自然顺畅，有效缓解长视频中的语义断裂与逻辑跳变问题。

三阶段训练效果对比
一图看懂 LongVie 2 框架
通过多模态控制、退化感知训练与历史上下文建模的协同设计，LongVie 2 将长视频生成从「片段拼接」提升为持续演化的世界建模过程：

LongVie 2 整体框架
从左至右，LongVie 2 首先将跨片段的稠密（深度）与稀疏（关键点）控制视频做全局归一化，并为所有片段采用统一的噪声初始化。随后在每一片段生成时，将全局归一化后的控制信号、上一片段的末帧与文本提示送入模型，逐步生成完整的长视频。
LongVie 2 能力展示
该研究将LongVie 2与 Go-With-The-Flow 和 Diffusion As Shader 进行了对比。结果显示，LongVie 2 在可控性方面表现显著优于现有方法：

与现有方法的可控性对比

https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg
消融实验也充分验证了三阶段训练的有效性：

消融实验结果
LongVGenBench
首个可控超长视频评测基准
当前缺乏面向可控长视频生成的标准化评测。为此，本文提出LongVGenBench—— 首个专为超长视频生成设计的基准数据集，包含100 个时长超过 1 分钟的高分辨率视频，覆盖真实世界与合成环境的多样场景，旨在推动该方向的系统研究与公平评测。
定量评估与用户主观测评结果显示，LongVie 2 在多项指标上达到SOTA 水平，并获得最高用户偏好度：

定量评测结果与用户研究

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Kimi完成5亿美元新融资，杨植麟：账上有超百亿元人民币

稚晖君官宣新作启元Q1 全球最小全身力控人形机器人亮相

被OpenAI盯上的中国公司，要去港股上市了

Manus补上一块短板，但Meta AI的短板实在太多了

换电每公里仅需1毛钱！宁德时代一年时间建成1325座换电站

小米汽车明年拟推4款新车，包含2款增程

全站最新

Kimi完成5亿美元新融资，杨植麟：账上有超百亿元人民币

稚晖君官宣新作启元Q1 全球最小全身力控人形机器人亮相

被OpenAI盯上的中国公司，要去港股上市了

Manus补上一块短板，但Meta AI的短板实在太多了

热门推荐

苏州乐享发布具身智能品牌“元点智能”，全尺寸机器人原型首度亮相

月之暗面斩获5亿美元C轮融资:手握百亿现金不急IPO，剑指AGI世界巅峰

小米大模型 MiMo 公测延长，用户可免费体验至 2026 年！

Kimi完成5亿美元新融资，杨植麟：账上有超百亿元人民币

稚晖君官宣新作启元Q1 全球最小全身力控人形机器人亮相

被OpenAI盯上的中国公司，要去港股上市了

Manus补上一块短板，但Meta AI的短板实在太多了

换电每公里仅需1毛钱！宁德时代一年时间建成1325座换电站

小米汽车明年拟推4款新车，包含2款增程

董修惠任一汽-大众总经理

通义千问开源Qwen-Image-2512

快手AI关键人物将离场

稚晖君发布首款个人机器人启元Q1

工信部等两部门治理光伏产业“内卷式”竞争：加强知识产权保护

中国科技馆2026年将启动“会员体系”