新智元报道
编辑:KingHZ
27FPS实时视频生成,35秒生成1分钟视频,英伟达联合MIT港大等团队提出的SANA-Video架构,得益于核心架构创新,视频模型具备了惊人的生成速度。
27帧每秒的实时视频生成、35秒合成1分钟高清视频——这不是遥远的未来,而是刚刚由英伟达联合MIT与港大团队带来的现实。
全新一代视频扩散模型SANA-Video横空出世,凭借革命性的线性DiT架构与恒定显存KV缓存机制,不仅速度超越所有同类模型,更以高达720p的分辨率与分钟级时长生成,重新定义了AI视频生成的效率极限。
SANA-Video不仅在速度和性能上表现出色,生成的图像质量也非常高。
以下是SANA-Video生成的一些示例:
它的核心优势在于:
· 高效率:采用线性DiT和显存恒定的KV缓存,实现了比传统模型更快的速度和更高的内存效率。
· 低成本:训练成本极低(仅为MovieGen的1%),推理速度比SOTA模型快16倍。
· 可部署性:可在RTX5090上部署,仅需29秒即可生成一个5秒的720p视频。
· 长视频实时生成:4步蒸馏版本的长视频生成变种(LongSANA),仅需35秒即可生成1分钟的480p视频。在速度和质量之间,SANA-Video树立了新标杆。
本文将深入探讨SANA-Video的创新技术及其卓越性能。
论文名称:SANA-Video: Efficient Video Generation withBlockLinear Diffusion Transformer
论文地址:https://arxiv.org/pdf/2509.24695
项目主页:https://nvlabs.github.io/Sana/Video/
研究背景
在文本到图像和视频生成领域,扩散模型(Diffusion Transformer)取得了显著的成功。
尽管扩散模型可以对多token并行化处理,但在高分辨率图像和视频生成时,海量的token数目导致推理速度较慢。
这个问题在文本到视频领域更为显著,同时生成5s 81帧的视频相比图像生成速度增长50倍。
为了提高计算效率,在视频任务这种token数量巨大的任务上,线性注意力计算复杂度节省效果显著。
目前,一些融合Linear Attention和Softmax Attention的方法取得良好效果,但是从头训练的全局Linear Attention模型的能力,仍存在不确定性。
SANA-Video在Linear DiT模型上继续训练,继承其全局线性注意力的模型设计,实现了从头开始的图像和视频模型的高效训练和推理全流程,在8倍压缩的Wan-VAE和这次提出的32倍压缩的DC-AE-V两种VAE上都验证的可行性。
最终效果抗打,在Vbench上与Wan-2.1等开源扩散视频模型持平。
核心创新
SANA-Video的核心在于其创新和鲁邦的全局线性注意力Diffusion Transformer训练框架,及其特有的全局显存恒定的KV缓存机制。
主要贡献包括:
线性注意力DiT(Linear DiT):针对视频生成中海量令牌(token)处理的计算瓶颈,模型以线性注意力(Linear Attention)为核心操作。相比于传统的自注意力机制,线性注意力在处理长序列时更为高效,这为模型在合成高清长视频时保持卓越的速度和效率奠定了基础。
恒定显存的KV缓存机制(Constant-Memory KVCache):为了经济高效地生成分钟级长视频,研究者创新出一种分块自回归方法。该方法利用线性注意力的累积特性,创建了一个占用显存恒定的状态(KV缓存),从而为模型提供全局上下文信息,且不会随着视频长度的增加而消耗更多显存。这一设计彻底解决了传统KV缓存的内存瓶颈问题。并且通过步数蒸馏,LongSANA可以以自回归的方式实时生成分钟级的长视频。
深度压缩自编码器(DC-AE-V):传统自编码器只能将视频空间压缩8倍,全新AE可将视频空间压缩32倍,有效减少了潜在token的数量,解锁高分辨率视频生成新速度。
卓越的性能与部署效率:SANA-Video在实现了与业界先进小扩散模型(如Wan 2.1-1.3B)相媲美的视频质量的同时,展现了极高的效率优势。
训练成本低:训练开销仅为MovieGen的1%。
推理速度快:实测延迟比同类模型快16倍。
消费级部署:可成功部署于RTX5090GPU,并利用NVFP4精度将一段5秒720p视频的生成时间从71秒缩短至29秒,真正实现了低成本、高质量的视频生成。
设计细节
模型架构的细节,如下表所示。
· 高效线性DiT(Diffusion Transformer)
原始DiT的自注意力计算复杂度为O(N²),在处理高分辨率图像时呈二次增长,线性DiT在此替换了传统的二次注意力机制,将计算复杂度从O(N²)降低到O(N)。
模型从,继承大部分模型权重,持续使用全局的线性DiT架构,最终形成一套完整的从头开始训练的文生图像视频模型。
与此同时,研究人员还提出了Spatial-Temporal Mix-FFN,可以在多层感知器(MLP)中交替使用1×3×3的空间卷积和3×1×1的时序卷积,增强了token的局部信息。
实验结果显示,线性注意力达到了与传统注意力相当的结果,在5s视频生成方面将延迟缩短了2-4倍。
·恒定显存的KV缓存机制(Constant-Memory KVCache)
在线性DiT的基础上,通过块间自回归的训练方式实现块线性扩散模型,其具有全局的注意力,但是显存开销固定的特性。
具体的,块间自回归训练方式通过将一段视频分为N块(Block/Chunk),根据帧所在块的前后顺序加递增的噪音大小进行扩散模型训练,通过因果注意力的方式进行建模,后面的块能过通过线性注意力融合前面块的特征,但前面块的特征计算不能引入后续块的特征。
首先对于线性注意力,其在计算机制上可以实现沿Token顺序进行拆分(数学上等价),并通过KV乘积后累加的方式得到所有Token的注意矩阵计算结果。
因此,当块因果线性扩散模型(Causal LinearAttention)训练完成后,我们可以通过线性KV缓存机制进行长视频推理任务。
在块1的KV1计算后进行缓存,当块2的KV2矩阵计算完成后与KV1矩阵相加即可得到KV1-2,以此类推,当最后一个块n的KVn计算完成后,只需要
得到全局的KV矩阵。基于此,每个块的计算量只包含累加矩阵KVsum与当前块的KV计算后的加和。
·深度压缩自编码器(DC-AE-V)
按照SANA模型的一贯策略,研究人员引入的全新视频自编码器(DC-AE-V),大幅将缩放因子提高至空间32倍,时序4倍。
与F8T4C16+DiT编码层压缩2倍相比,F32T4C32输出的潜在token数量减少了4倍,这对于高效训练和生成高分辨率视频(如720p分辨率)至关重要。
· 高效训练和推理策略
为降低训练成本,研究人员从数据和训练策略两方面进行了优化。
首先,在数据层面,他们设计了高效的过滤标准,并利用强大的视觉语言模型(VLM)为视频生成包含丰富细节(如主体、动作、环境、镜头角度等)的高质量文本描述。
其次,在训练层面,模型基于一个强大的图生文(T2I)模型进行连续预训练,并采用从低分辨率到高分辨率的多阶段策略。
最后利用人类偏好的数据进行监督微调(SFT),从而高效地学习视频的动态和美学特征。
整体性能
如下表中,将SANA-Video与当前最先进的文本生成视频扩散模型进行了比较。
在480p分辨率的文生视频(Text-to-Video)任务中,SANA-Video在模型参数量仅为2B的情况下,实现了最高的语义对齐分数(Semantic Score 81.35),其推理延迟仅为60秒,快于其他模型,实现了8倍的速度提升。
在480p分辨率的图生视频(Image-to-Video)任务中,SANA-Video同样速度最快,并且其视频生成质量分数(I2V Score 96.40)超越了所有同类模型。
在更高分辨率(720p)的性能对比中,SANA-Video-2B的综合评分(Total Score 84.05)表现最佳。其推理延迟仅为36秒,相比SkyReelV2(568秒)和Wan2.1(403秒)等模型,实现了高达16倍的速度优势。
如下是,SANA-Video与其他模型可视化性能比较。很显然,SANA-Video模型生成速度更快的同时质量也同样能打。
LongSANA:长视频实时生成
SANA-Video的恒定显存的KV缓存机制,支持使用全局注意力进行训练和推理。
因此,研究人员改进Self-Forcing的5s视频自回归训练方式,使用全局注意力进行1分钟的流式训练,从而实现更高质量的长视频,此变种命名为LongSANA。并且通过蒸馏去噪步数,实现在H100上仅需35秒即可生成1分钟视频。生成效果如下:
终端设备部署
为了增强边缘部署,研究人员使用SVDQuant算法进行NVFP4对模型进行量化。在480p和720p视频的速度上都实现2.4x的加速。并且可以在RTX 5090显卡上进行推理。
展望未来,SANA-Video将致力于探索实时交互式生成等前沿领域。
研究者坚信开放的力量,因此决定将完整的训练代码和模型权重向社区开源,期待与全球的开发者和研究者一同探索视频生成的无限可能。
参考资料:
1https://arxiv.org/pdf/2509.24695