当前位置：首页 » 资讯 » 新科技 » 正文

Sora没做到的，LongVie框架给解决了，超长视频生成SOTA

IP属地中国·北京 编辑：唐云泽机器之心Pro 时间：2025-08-20 18:17:02

从Sora的惊艳亮相到多款高性能开源模型的诞生，视频生成在过去两年迎来爆发式进步，已能生成几十秒的高质量短片。然而，要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频，仍面临巨大挑战。
为此，上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab、英伟达等机构提出 LongVie 框架，系统性解决可控长视频生成中的核心难题。

项目主页：https://vchitect.github.io/LongVie-project/视频：https://www.youtube.com/watch?v=SOiTfdGmGEY&t=1s论文：https://arxiv.org/abs/2508.03694Github：https://github.com/Vchitect/LongVie
难点剖析
直接利用当前的可控视频生成模型生成分钟级长视频时，通常会出现以下问题：
时序不一致：前后画面细节与内容不连贯，出现闪烁等现象。视觉退化：随时长增长，出现颜色漂移、清晰度下降等问题。

解决时序不一致：两项关键策略
LongVie 从「控制信号」与「初始噪声」两条路径入手：
1. 控制信号全局归一化（Control Signals Global Normalization）
将控制信号在全片段范围内统一归一化，而非仅在单一片段内归一化，显著提升跨片段拼接时的一致性。
2.统一噪声初始化（Unified Noise Initialization）
各片段共享同一初始噪声，从源头对齐不同片段的生成分布，减少前后帧外观与细节漂移。
（下图展示了两项策略带来的前后一致性提升）

解决视觉退化：多模态精细控制
单一模态的控制难以在长时间下提供稳定而全面的约束，误差会随时间累积并引发画质下降。LongVie 融合密集控制信号（如深度图）与稀疏控制信号（如关键点），并引入退化感知训练策略，在更贴近长序列退化分布的条件下训练模型，使长视频生成在细节与稳定性上同时受益。
（下图给出了单一模态与多模态对比示例）

一图看懂 LongVie 框架

控制信号怎么融合更稳更强？团队把标准 ControlNet（a）和两种变体（b、c）都做了对比测试，结果显示变体（c）效果更好、训练更稳定，最终被采纳。
LongVie 能力展示
LongVie 支持多种长视频生成下游任务，包括但不限于：
视频编辑：对长视频进行一致性的内容修改与编辑。风格迁移：对整段长视频执行统一且时序连贯的风格迁移。Mesh-to-Video：从三维体素出发生成逼真的长视频。
（如下图为不同任务的效果示例）

LongVGenBench：首个可控超长视频评测基准
当前缺乏面向可控长视频生成的标准化评测。为此，作者团队提出 LongVGenBench—— 首个专为超长视频生成设计的基准数据集，包含 100 个时长超过 1 分钟的高分辨率视频，旨在推动该方向的系统研究与公平评测。
基于 LongVGenBench 的定量指标与用户主观测评显示，LongVie 在多项指标上优于现有方法，并获得最高用户偏好度，达到SOTA水平。（详见下表与用户研究结果）

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

安钛克推出P7S机箱：无“光污染”，标配四把无灯风扇

等死与找死？FD-SOI何以成为中国半导体的一条活路

第三届全国人力资源服务业发展大会启幕安徽AI创新成果绽放活力

MIT模拟1.5亿打工人：程序员竟是安全？AI首波「血洗」1.2万亿白领薪资！

“美国人质疑这段视频造假，却不知中国制造业有多强”

第四次冲刺上市，Soul讲的什么新故事？

全站最新

安钛克推出P7S机箱：无“光污染”，标配四把无灯风扇

等死与找死？FD-SOI何以成为中国半导体的一条活路

第三届全国人力资源服务业发展大会启幕安徽AI创新成果绽放活力

MIT模拟1.5亿打工人：程序员竟是安全？AI首波「血洗」1.2万亿白领薪资！

热门推荐

苹果英特尔有望在芯片上再度合作由英特尔代工部分M系列芯片

蔚来全新ES8仅70天交付破2万创40万元以上纯电车型最快纪录

iPhone 17e外观提前揭晓：刘海消失酷似单摄版iPhone 17

iOS微信8.0.66正式版发布：彻底抛弃老系统、截图转发一键搞定

科技昨夜今晨1130：中国电影单日票房再破6亿

安钛克推出P7S机箱：无“光污染”，标配四把无灯风扇

AI周报 | DeepSeek开源奥数金牌水平模型；前OpenAI 联创称规模扩展时代已终结

等死与找死？FD-SOI何以成为中国半导体的一条活路

第三届全国人力资源服务业发展大会启幕安徽AI创新成果绽放活力

MIT模拟1.5亿打工人：程序员竟是安全？AI首波「血洗」1.2万亿白领薪资！

“美国人质疑这段视频造假，却不知中国制造业有多强”

第四次冲刺上市，Soul讲的什么新故事？

F-150 Lightning宣传的前向感知系统没装，福特在美被起诉

苹果A20系列芯片前瞻：2nm工艺与封装升级带来性能飞跃

瘫痪男子借助Neuralink脑机接口玩《战地6》，可用意念瞄准