![]()
这项由Stability AI公司的Hmrishav Bandyopadhyay博士领导,联合英国萨里大学SketchX实验室的Yi-Zhe Song教授等研究团队共同完成的研究,发表于2025年11月。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2511.20426v1查询完整论文。
要理解这项技术突破的意义,我们不妨把视频生成想象成制作一部动画片。传统的视频生成技术就像是一个极其谨慎的动画师,必须完全画完第一帧,然后再开始画第二帧,接着是第三帧,以此类推。这种严格的顺序虽然能保证质量,但速度慢得让人抓狂。小规模的AI模型勉强能达到每秒16帧的生成速度,而那些能生成高质量视频的大型模型却只能爬行般地以每秒4.5帧的速度工作。这就好比你想看一部电影,结果播放速度慢到让人无法忍受。
研究团队发现了一个关键洞察:未来的视频片段其实不需要等到前面的片段完全"画"完才能开始工作。就像一个聪明的动画师可以在画第一帧的同时,心里已经构思好第二帧的大概轮廓,然后开始动笔。这种"边画边想"的方式被研究团队称为"Block Cascading"(块级联技术)。
这项技术的核心思想相当巧妙。以前的视频生成就像一条生产线,每个工位必须等前一个工位完全完成后才能开始工作。但研究团队发现,其实当前一个工位完成了大约75%的工作时,下一个工位就可以开始了,因为即使是"半成品"也包含了足够的信息供下一步使用。这样一来,多个工位可以同时工作,整条生产线的效率自然就大大提升了。
更令人兴奋的是,这项技术完全不需要重新训练现有的AI模型。就像给一台老机器安装了新的传送带系统,机器本身不用改动,但整体效率却能显著提升。使用5个GPU(可以理解为5个并行工作的"画师"),小型模型的生成速度从每秒16帧提升到30帧,大型模型从每秒4.5帧提升到12.5帧,几乎实现了翻倍的性能提升。
一、传统视频生成的"龟速"困境
当前的视频生成技术面临着一个根本性的矛盾:你要么选择速度快但质量平庸的小模型,要么选择质量出色但慢如蜗牛的大模型,很难两全其美。这种困境的根源在于传统的"块因果"(block-causal)生成方式过于保守。
把视频想象成一串珍珠项链,每颗珍珠代表一小段视频片段(通常包含几帧画面)。传统的方法要求必须完全制作完第一颗珍珠,然后才能开始制作第二颗,以此类推。这种严格的顺序确实能保证每颗"珍珠"都与前面的完美衔接,但代价是巨大的时间浪费。
研究团队观察到,现有的主流模型如CausVid、Self-Forcing和LongLive都采用这种保守策略。它们要求前一个视频块必须从完全的"噪声状态"(可以理解为一片混乱)完全清理到"完美状态"后,下一个块才能开始工作。这就像要求第一个厨师必须把菜完全做好装盘后,第二个厨师才能开始切菜,显然不是最高效的厨房管理方式。
更有趣的是,研究团队发现这些"因果"模型实际上是从"双向"模型改造而来的。双向模型就像是能够同时看到过去和未来的"预言家",天生就具备处理不完美信息的能力。既然如此,为什么要人为地限制它们只能按严格顺序工作呢?
这种传统方法的另一个问题是,在交互式视频生成场景下会出现严重的延迟问题。当用户想要改变视频内容(比如从"一只猫在草地上跑"改成"一只猫在海边跑")时,系统必须重新计算和缓存所有之前的信息,这个过程往往需要200毫秒以上,严重影响用户体验。这就像你在看电视时换台,结果每次换台都要等好几秒钟才能看到新内容。
二、"噪声缓存":在不完美中寻找可能
解决问题的关键在于一个看似矛盾的发现:未来的视频片段并不需要前面片段达到完美状态才能开始生成。研究团队发现,即使前面的片段还处在"半成品"状态(技术上称为"部分去噪"状态),其中包含的信息也足够让后续片段开始工作。
这个发现可以用做饭来类比。传统方法就像要求第一道菜完全做好后才能开始准备第二道菜。但实际上,当第一道菜的主要食材已经处理得差不多时(比如肉已经炒得7分熟),完全可以开始准备第二道菜的配菜,因为你已经知道整餐饭的大致风格和口味方向了。
具体来说,研究团队提出了"噪声缓存"的概念。当第一个视频块从1000步噪声降到750步左右时,就可以启动第二个视频块的生成过程。这样,当第一个块达到500步时,第二个块可能已经降到750步,第三个块刚开始从1000步开始,形成了一个"瀑布式"的并行处理流程。
为了验证这个想法,团队进行了大量测试,发现使用中等程度去噪的前块信息(比如t=750时的状态)生成的后续视频块,在视觉质量上与使用完全去噪信息(t=0时的状态)生成的结果几乎没有差别。这证明了"噪声缓存"方法的可行性。
不过,简单的噪声缓存还不够。如果只是让前后块简单地依次开始,仍然会形成某种程度的序列等待。真正的突破在于将多个视频块"打包"在一起,同时处理,并且让它们在处理过程中相互"交流"信息。
三、"瀑布式"并行:让多个厨师同时工作
Block Cascading技术的精髓在于将原本的序列化流水线改造成并行化的"瀑布"系统。想象一个智能化的厨房,里面有多个厨师同时工作。第一个厨师开始做第一道菜,当他完成了主要步骤后,第二个厨师开始做第二道菜,同时他还能观察第一个厨师的进度,确保自己的菜品风格保持一致。第三个厨师接着开始,以此类推。
在技术实现上,研究团队设计了一个巧妙的"Mini-batch"(小批次)处理机制。他们将相互依赖的视频块组合成一个小批次,然后在多个GPU上并行处理这些批次。每个GPU负责处理批次中的一个视频块,但所有GPU之间会共享关键信息(技术上称为"KV特征"),确保生成的视频片段之间保持连贯性。
这种设计的巧妙之处在于找到了并行处理和质量保证之间的平衡点。研究团队发现,最佳的"窗口大小"是5个视频块。也就是说,在任何时刻,系统可以同时处理5个不同阶段的视频块:第一个块可能正在做最后的细节优化,第二个块在做中等程度的处理,第三个块刚开始粗加工,以此类推。
为了让这个"瀑布"系统工作得更好,团队还采用了一个重要的优化:双向注意力机制。传统的因果模型只允许后面的块"看到"前面的块,但Block Cascading允许正在同时处理的块之间相互"观察"和"学习"。这就像厨师们不仅要参考前面厨师的工作,还要和正在同时工作的其他厨师交流,确保整餐饭的协调统一。
这种双向信息交流的好处是显而易见的。当多个视频块同时处理时,它们可以相互校正和优化,有时候甚至能产生比严格按序列处理更好的效果。研究团队在实验中发现,某些情况下Block Cascading生成的视频质量甚至超过了原始的序列化方法。
四、无需重训练的"免费午餐"
Block Cascading最令人印象深刻的特点之一就是它完全不需要重新训练现有的AI模型。这在AI领域是相当罕见的"免费午餐"。就像给一台老电脑安装了更好的操作系统,硬件不用换,但整体性能却能显著提升。
这种"训练无关"的特性源于一个深刻的洞察:现有的块因果模型大多是从双向预训练模型改造而来的,它们在"基因"中就具备了处理不完美信息的能力。Block Cascading只是释放了这种潜在能力,而不是强加全新的工作方式。
研究团队在三种不同类型的模型上验证了这种通用性:1.3B参数的Self-Forcing模型、更复杂的LongLive长视频模型,以及高达14B参数的Krea模型。结果显示,Block Cascading在所有这些模型上都能实现显著的速度提升,平均达到2倍左右,而质量几乎没有损失。
更重要的是,这种方法的部署非常简单。现有的视频生成系统只需要修改推理(inference)过程,而不需要改动模型本身的权重参数。这意味着公司和研究机构可以立即在现有系统上应用这项技术,无需投入大量时间和计算资源重新训练模型。
当然,这种"免费午餐"也不是完全没有代价的。Block Cascading需要多个GPU同时工作,这在硬件成本上是有要求的。但研究团队指出,相对于重新训练大型模型所需的巨额成本,这种硬件投入是微不足道的。而且,随着GPU技术的发展和成本降低,这种多GPU部署将变得越来越可行。
五、交互式应用的"即时响应"革命
Block Cascading在交互式视频生成方面带来的改进可能是最具实用价值的。传统的交互式视频系统存在一个严重问题:当用户想要改变视频内容时(比如从"森林场景"切换到"海滩场景"),系统需要进行繁重的"KV重缓存"操作,导致明显的延迟和用户体验中断。
这个问题可以用换电视频道来类比。传统系统就像老式电视,每次换台都需要重新搜索和调整信号,用户必须等待好几秒钟才能看到新内容。而Block Cascading就像现代数字电视,换台几乎是瞬时的。
具体来说,当用户输入新的文字提示(比如从"一只猫在草地上跑"改成"一只猫在海边跑")时,Block Cascading系统中的不同视频块正处在不同的处理阶段。系统可以直接将新的文字信息注入到这些正在处理的块中,让它们根据当前的"噪声水平"逐渐适应新的内容要求。
这种渐进式的内容切换产生了一个意想不到的好处:过渡更加自然和平滑。传统的KV重缓存方法往往会产生突兀的场景切换,而Block Cascading的渐进式切换让视频内容的改变看起来更像自然的镜头转换,而不是生硬的跳跃。
用户研究显示,观众更喜欢Block Cascading产生的交互式视频,认为它们的内容切换更流畅,响应速度更快。这对于实时视频生成应用(比如虚拟主播、实时游戏内容生成)具有重要意义,因为它让AI视频生成真正具备了实时交互的可能性。
六、性能测试:数据说话的真实提升
研究团队进行了全面的性能测试,结果令人印象深刻。在标准的H100 GPU环境下,使用相同的Flash Attention 3技术栈,Block Cascading展现出了稳定而显著的性能提升。
对于1.3B参数的小型模型,传统方法的生成速度是每秒16帧,而使用5个GPU的Block Cascading可以达到每秒30帧,提升幅度接近90%。更令人惊喜的是14B参数的大型模型,从原本爬行般的每秒4.5帧提升到每秒12.5帧,实现了近3倍的速度提升。
这些数字的意义可以通过一个简单的计算来理解。生成一段30秒的高质量视频,传统的大型模型需要大约67秒,而Block Cascading只需要24秒。这种差异在实际应用中是巨大的,特别是对于需要快速响应的交互式应用。
在质量评估方面,研究团队使用了业界标准的VBench评测工具。结果显示,Block Cascading在各项质量指标上与原始方法相当,有些情况下甚至略有改善。这证明了速度提升并没有以质量损失为代价。
特别有趣的是,团队还测试了不同程度的并行化效果。他们发现,适度的并行化(比如2-3个块同时处理)可以在单GPU环境下实现约10%的速度提升,而完全并行化(5个块同时处理)在多GPU环境下能实现接近100%的提升。这种灵活性让用户可以根据自己的硬件条件选择合适的配置。
七、用户体验:专业评估与真实反馈
为了验证Block Cascading的实际效果,研究团队组织了大规模的用户研究。他们邀请了大量志愿者观看对比视频,这些视频分别由传统方法和Block Cascading生成,但观看者并不知道哪个是哪个。
结果令人鼓舞。在短视频生成测试中,观看者很难区分两种方法的差别,这说明Block Cascading在保持质量的同时实现了速度提升。更有趣的是,在某些类型的视频中,观看者实际上更喜欢Block Cascading生成的结果,特别是在交互式视频和使用大型模型生成的内容中。
这种偏好可能源于Block Cascading的双向注意力机制带来的额外好处。当多个视频块同时处理并相互交流信息时,它们能够产生更好的全局一致性和视觉连贯性。这就像一个管弦乐团,当音乐家们不仅听指挥的指示,还相互聆听和配合时,往往能演奏出更和谐的音乐。
在交互式视频生成的测试中,Block Cascading的优势更加明显。用户报告说,使用Block Cascading的系统响应更快,内容切换更自然,整体体验明显优于传统方法。这种改善对于实时应用场景(如虚拟现实、游戏、直播)具有重要意义。
研究团队还测试了长视频生成场景。传统上,生成长视频时容易出现"漂移"现象,也就是视频内容逐渐偏离原始设定。Block Cascading通过其"水槽"机制(保留关键帧作为持续参考)有效缓解了这个问题,生成的长视频保持了更好的一致性。
八、技术局限与改进空间
尽管Block Cascading带来了显著的改进,但研究团队也诚实地指出了这项技术的局限性。首先,GPU扩展效果呈现亚线性特征,也就是说,使用5个GPU并不能带来5倍的速度提升,实际提升大约是2-3倍。这主要是因为GPU之间需要交换信息,而且视频解码等后处理步骤仍然需要串行执行。
另一个限制与预训练模型的窗口大小有关。如果一个模型在训练时使用的注意力窗口比较小(比如4个块),那么在推理时强行使用更大的窗口(比如7个块)可能会带来轻微的质量下降。不过,这个问题可以通过减少并行度来缓解,虽然会牺牲一些速度优势。
Block Cascading对单一视频生成非常有效,但对于批量视频生成(同时生成多个不同的视频)可能不如传统的分布式采样方法高效。这是因为Block Cascading的设计重点是时间维度的并行化,而不是样本维度的并行化。
研究团队还观察到,在某些复杂场景下,特别是需要精细纹理细节的情况下,完全并行化可能会产生轻微的视觉伪影。这类似于多个画家同时作画时可能出现的细节不一致。不过,这些问题可以通过适当调整并行度或使用双向注意力机制来改善。
最后,这项技术目前还需要相对较新的硬件支持,特别是支持高效GPU间通信的设备。虽然这不是技术上的根本限制,但确实增加了部署成本,可能限制了在资源受限环境中的应用。
尽管存在这些局限性,研究团队强调,Block Cascading仍然是当前解决视频生成速度瓶颈的最有效方案之一,特别考虑到它不需要重新训练模型这一巨大优势。随着硬件技术的发展和进一步的算法优化,这些限制有望得到逐步改善。
归根结底,Block Cascading代表了视频生成技术从"追求完美顺序"向"拥抱智能并行"的重要转变。这项技术不仅解决了当前AI视频生成速度慢的痛点,更重要的是为未来的实时、交互式视频应用铺平了道路。当我们能够以接近实时的速度生成高质量视频时,AI创作的可能性将得到极大拓展,从游戏娱乐到教育培训,从广告制作到新闻报道,都可能因此而彻底改变。这项研究证明了,有时候最大的突破不是发明全新的技术,而是用更聪明的方式使用现有技术。对于普通用户来说,这意味着更快的响应速度、更流畅的交互体验,以及更广阔的创意可能性。
Q&A
Q1:Block Cascading技术是什么原理?
A:Block Cascading是一种视频生成加速技术,核心原理是让多个视频片段同时并行处理,而不是传统的依次排队处理。就像让多个厨师同时做菜而不是一个接一个做,通过这种"瀑布式"的工作方式,可以将视频生成速度提升2-3倍。
Q2:这个技术需要重新训练AI模型吗?
A:完全不需要重新训练。Block Cascading最大的优势就是可以直接应用到现有的视频生成模型上,只需要改变推理过程,不用修改模型参数。这就像给老电脑安装新的操作系统,硬件不变但性能显著提升。
Q3:普通用户什么时候能用上这项技术?
A:由于Block Cascading不需要重新训练模型,现有的视频生成服务商可以很快集成这项技术。预计在不久的将来,用户在使用AI视频生成工具时就能体验到更快的生成速度和更流畅的交互体验,特别是在需要实时响应的应用场景中。





京公网安备 11011402013531号