当前位置：首页 » 资讯 » 新科技 » 正文

Stability AI突破：让视频生成速度提升近3倍的"瀑布式"新技术

IP属地中国·北京 科技行者 时间：2025-11-29 00:15:01

这项由Stability AI公司的Hmrishav Bandyopadhyay博士领导，联合英国萨里大学SketchX实验室的Yi-Zhe Song教授等研究团队共同完成的研究，发表于2025年11月。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2511.20426v1查询完整论文。
要理解这项技术突破的意义，我们不妨把视频生成想象成制作一部动画片。传统的视频生成技术就像是一个极其谨慎的动画师，必须完全画完第一帧，然后再开始画第二帧，接着是第三帧，以此类推。这种严格的顺序虽然能保证质量，但速度慢得让人抓狂。小规模的AI模型勉强能达到每秒16帧的生成速度，而那些能生成高质量视频的大型模型却只能爬行般地以每秒4.5帧的速度工作。这就好比你想看一部电影，结果播放速度慢到让人无法忍受。
研究团队发现了一个关键洞察：未来的视频片段其实不需要等到前面的片段完全"画"完才能开始工作。就像一个聪明的动画师可以在画第一帧的同时，心里已经构思好第二帧的大概轮廓，然后开始动笔。这种"边画边想"的方式被研究团队称为"Block Cascading"（块级联技术）。
这项技术的核心思想相当巧妙。以前的视频生成就像一条生产线，每个工位必须等前一个工位完全完成后才能开始工作。但研究团队发现，其实当前一个工位完成了大约75%的工作时，下一个工位就可以开始了，因为即使是"半成品"也包含了足够的信息供下一步使用。这样一来，多个工位可以同时工作，整条生产线的效率自然就大大提升了。
更令人兴奋的是，这项技术完全不需要重新训练现有的AI模型。就像给一台老机器安装了新的传送带系统，机器本身不用改动，但整体效率却能显著提升。使用5个GPU（可以理解为5个并行工作的"画师"），小型模型的生成速度从每秒16帧提升到30帧，大型模型从每秒4.5帧提升到12.5帧，几乎实现了翻倍的性能提升。
一、传统视频生成的"龟速"困境
当前的视频生成技术面临着一个根本性的矛盾：你要么选择速度快但质量平庸的小模型，要么选择质量出色但慢如蜗牛的大模型，很难两全其美。这种困境的根源在于传统的"块因果"（block-causal）生成方式过于保守。
把视频想象成一串珍珠项链，每颗珍珠代表一小段视频片段（通常包含几帧画面）。传统的方法要求必须完全制作完第一颗珍珠，然后才能开始制作第二颗，以此类推。这种严格的顺序确实能保证每颗"珍珠"都与前面的完美衔接，但代价是巨大的时间浪费。
研究团队观察到，现有的主流模型如CausVid、Self-Forcing和LongLive都采用这种保守策略。它们要求前一个视频块必须从完全的"噪声状态"（可以理解为一片混乱）完全清理到"完美状态"后，下一个块才能开始工作。这就像要求第一个厨师必须把菜完全做好装盘后，第二个厨师才能开始切菜，显然不是最高效的厨房管理方式。
更有趣的是，研究团队发现这些"因果"模型实际上是从"双向"模型改造而来的。双向模型就像是能够同时看到过去和未来的"预言家"，天生就具备处理不完美信息的能力。既然如此，为什么要人为地限制它们只能按严格顺序工作呢？
这种传统方法的另一个问题是，在交互式视频生成场景下会出现严重的延迟问题。当用户想要改变视频内容（比如从"一只猫在草地上跑"改成"一只猫在海边跑"）时，系统必须重新计算和缓存所有之前的信息，这个过程往往需要200毫秒以上，严重影响用户体验。这就像你在看电视时换台，结果每次换台都要等好几秒钟才能看到新内容。
二、"噪声缓存"：在不完美中寻找可能
解决问题的关键在于一个看似矛盾的发现：未来的视频片段并不需要前面片段达到完美状态才能开始生成。研究团队发现，即使前面的片段还处在"半成品"状态（技术上称为"部分去噪"状态），其中包含的信息也足够让后续片段开始工作。
这个发现可以用做饭来类比。传统方法就像要求第一道菜完全做好后才能开始准备第二道菜。但实际上，当第一道菜的主要食材已经处理得差不多时（比如肉已经炒得7分熟），完全可以开始准备第二道菜的配菜，因为你已经知道整餐饭的大致风格和口味方向了。
具体来说，研究团队提出了"噪声缓存"的概念。当第一个视频块从1000步噪声降到750步左右时，就可以启动第二个视频块的生成过程。这样，当第一个块达到500步时，第二个块可能已经降到750步，第三个块刚开始从1000步开始，形成了一个"瀑布式"的并行处理流程。
为了验证这个想法，团队进行了大量测试，发现使用中等程度去噪的前块信息（比如t=750时的状态）生成的后续视频块，在视觉质量上与使用完全去噪信息（t=0时的状态）生成的结果几乎没有差别。这证明了"噪声缓存"方法的可行性。
不过，简单的噪声缓存还不够。如果只是让前后块简单地依次开始，仍然会形成某种程度的序列等待。真正的突破在于将多个视频块"打包"在一起，同时处理，并且让它们在处理过程中相互"交流"信息。
三、"瀑布式"并行：让多个厨师同时工作
Block Cascading技术的精髓在于将原本的序列化流水线改造成并行化的"瀑布"系统。想象一个智能化的厨房，里面有多个厨师同时工作。第一个厨师开始做第一道菜，当他完成了主要步骤后，第二个厨师开始做第二道菜，同时他还能观察第一个厨师的进度，确保自己的菜品风格保持一致。第三个厨师接着开始，以此类推。
在技术实现上，研究团队设计了一个巧妙的"Mini-batch"（小批次）处理机制。他们将相互依赖的视频块组合成一个小批次，然后在多个GPU上并行处理这些批次。每个GPU负责处理批次中的一个视频块，但所有GPU之间会共享关键信息（技术上称为"KV特征"），确保生成的视频片段之间保持连贯性。
这种设计的巧妙之处在于找到了并行处理和质量保证之间的平衡点。研究团队发现，最佳的"窗口大小"是5个视频块。也就是说，在任何时刻，系统可以同时处理5个不同阶段的视频块：第一个块可能正在做最后的细节优化，第二个块在做中等程度的处理，第三个块刚开始粗加工，以此类推。
为了让这个"瀑布"系统工作得更好，团队还采用了一个重要的优化：双向注意力机制。传统的因果模型只允许后面的块"看到"前面的块，但Block Cascading允许正在同时处理的块之间相互"观察"和"学习"。这就像厨师们不仅要参考前面厨师的工作，还要和正在同时工作的其他厨师交流，确保整餐饭的协调统一。
这种双向信息交流的好处是显而易见的。当多个视频块同时处理时，它们可以相互校正和优化，有时候甚至能产生比严格按序列处理更好的效果。研究团队在实验中发现，某些情况下Block Cascading生成的视频质量甚至超过了原始的序列化方法。
四、无需重训练的"免费午餐"
Block Cascading最令人印象深刻的特点之一就是它完全不需要重新训练现有的AI模型。这在AI领域是相当罕见的"免费午餐"。就像给一台老电脑安装了更好的操作系统，硬件不用换，但整体性能却能显著提升。
这种"训练无关"的特性源于一个深刻的洞察：现有的块因果模型大多是从双向预训练模型改造而来的，它们在"基因"中就具备了处理不完美信息的能力。Block Cascading只是释放了这种潜在能力，而不是强加全新的工作方式。
研究团队在三种不同类型的模型上验证了这种通用性：1.3B参数的Self-Forcing模型、更复杂的LongLive长视频模型，以及高达14B参数的Krea模型。结果显示，Block Cascading在所有这些模型上都能实现显著的速度提升，平均达到2倍左右，而质量几乎没有损失。
更重要的是，这种方法的部署非常简单。现有的视频生成系统只需要修改推理（inference）过程，而不需要改动模型本身的权重参数。这意味着公司和研究机构可以立即在现有系统上应用这项技术，无需投入大量时间和计算资源重新训练模型。
当然，这种"免费午餐"也不是完全没有代价的。Block Cascading需要多个GPU同时工作，这在硬件成本上是有要求的。但研究团队指出，相对于重新训练大型模型所需的巨额成本，这种硬件投入是微不足道的。而且，随着GPU技术的发展和成本降低，这种多GPU部署将变得越来越可行。
五、交互式应用的"即时响应"革命
Block Cascading在交互式视频生成方面带来的改进可能是最具实用价值的。传统的交互式视频系统存在一个严重问题：当用户想要改变视频内容时（比如从"森林场景"切换到"海滩场景"），系统需要进行繁重的"KV重缓存"操作，导致明显的延迟和用户体验中断。
这个问题可以用换电视频道来类比。传统系统就像老式电视，每次换台都需要重新搜索和调整信号，用户必须等待好几秒钟才能看到新内容。而Block Cascading就像现代数字电视，换台几乎是瞬时的。
具体来说，当用户输入新的文字提示（比如从"一只猫在草地上跑"改成"一只猫在海边跑"）时，Block Cascading系统中的不同视频块正处在不同的处理阶段。系统可以直接将新的文字信息注入到这些正在处理的块中，让它们根据当前的"噪声水平"逐渐适应新的内容要求。
这种渐进式的内容切换产生了一个意想不到的好处：过渡更加自然和平滑。传统的KV重缓存方法往往会产生突兀的场景切换，而Block Cascading的渐进式切换让视频内容的改变看起来更像自然的镜头转换，而不是生硬的跳跃。
用户研究显示，观众更喜欢Block Cascading产生的交互式视频，认为它们的内容切换更流畅，响应速度更快。这对于实时视频生成应用（比如虚拟主播、实时游戏内容生成）具有重要意义，因为它让AI视频生成真正具备了实时交互的可能性。
六、性能测试：数据说话的真实提升
研究团队进行了全面的性能测试，结果令人印象深刻。在标准的H100 GPU环境下，使用相同的Flash Attention 3技术栈，Block Cascading展现出了稳定而显著的性能提升。
对于1.3B参数的小型模型，传统方法的生成速度是每秒16帧，而使用5个GPU的Block Cascading可以达到每秒30帧，提升幅度接近90%。更令人惊喜的是14B参数的大型模型，从原本爬行般的每秒4.5帧提升到每秒12.5帧，实现了近3倍的速度提升。
这些数字的意义可以通过一个简单的计算来理解。生成一段30秒的高质量视频，传统的大型模型需要大约67秒，而Block Cascading只需要24秒。这种差异在实际应用中是巨大的，特别是对于需要快速响应的交互式应用。
在质量评估方面，研究团队使用了业界标准的VBench评测工具。结果显示，Block Cascading在各项质量指标上与原始方法相当，有些情况下甚至略有改善。这证明了速度提升并没有以质量损失为代价。
特别有趣的是，团队还测试了不同程度的并行化效果。他们发现，适度的并行化（比如2-3个块同时处理）可以在单GPU环境下实现约10%的速度提升，而完全并行化（5个块同时处理）在多GPU环境下能实现接近100%的提升。这种灵活性让用户可以根据自己的硬件条件选择合适的配置。
七、用户体验：专业评估与真实反馈
为了验证Block Cascading的实际效果，研究团队组织了大规模的用户研究。他们邀请了大量志愿者观看对比视频，这些视频分别由传统方法和Block Cascading生成，但观看者并不知道哪个是哪个。
结果令人鼓舞。在短视频生成测试中，观看者很难区分两种方法的差别，这说明Block Cascading在保持质量的同时实现了速度提升。更有趣的是，在某些类型的视频中，观看者实际上更喜欢Block Cascading生成的结果，特别是在交互式视频和使用大型模型生成的内容中。
这种偏好可能源于Block Cascading的双向注意力机制带来的额外好处。当多个视频块同时处理并相互交流信息时，它们能够产生更好的全局一致性和视觉连贯性。这就像一个管弦乐团，当音乐家们不仅听指挥的指示，还相互聆听和配合时，往往能演奏出更和谐的音乐。
在交互式视频生成的测试中，Block Cascading的优势更加明显。用户报告说，使用Block Cascading的系统响应更快，内容切换更自然，整体体验明显优于传统方法。这种改善对于实时应用场景（如虚拟现实、游戏、直播）具有重要意义。
研究团队还测试了长视频生成场景。传统上，生成长视频时容易出现"漂移"现象，也就是视频内容逐渐偏离原始设定。Block Cascading通过其"水槽"机制（保留关键帧作为持续参考）有效缓解了这个问题，生成的长视频保持了更好的一致性。
八、技术局限与改进空间
尽管Block Cascading带来了显著的改进，但研究团队也诚实地指出了这项技术的局限性。首先，GPU扩展效果呈现亚线性特征，也就是说，使用5个GPU并不能带来5倍的速度提升，实际提升大约是2-3倍。这主要是因为GPU之间需要交换信息，而且视频解码等后处理步骤仍然需要串行执行。
另一个限制与预训练模型的窗口大小有关。如果一个模型在训练时使用的注意力窗口比较小（比如4个块），那么在推理时强行使用更大的窗口（比如7个块）可能会带来轻微的质量下降。不过，这个问题可以通过减少并行度来缓解，虽然会牺牲一些速度优势。
Block Cascading对单一视频生成非常有效，但对于批量视频生成（同时生成多个不同的视频）可能不如传统的分布式采样方法高效。这是因为Block Cascading的设计重点是时间维度的并行化，而不是样本维度的并行化。
研究团队还观察到，在某些复杂场景下，特别是需要精细纹理细节的情况下，完全并行化可能会产生轻微的视觉伪影。这类似于多个画家同时作画时可能出现的细节不一致。不过，这些问题可以通过适当调整并行度或使用双向注意力机制来改善。
最后，这项技术目前还需要相对较新的硬件支持，特别是支持高效GPU间通信的设备。虽然这不是技术上的根本限制，但确实增加了部署成本，可能限制了在资源受限环境中的应用。
尽管存在这些局限性，研究团队强调，Block Cascading仍然是当前解决视频生成速度瓶颈的最有效方案之一，特别考虑到它不需要重新训练模型这一巨大优势。随着硬件技术的发展和进一步的算法优化，这些限制有望得到逐步改善。
归根结底，Block Cascading代表了视频生成技术从"追求完美顺序"向"拥抱智能并行"的重要转变。这项技术不仅解决了当前AI视频生成速度慢的痛点，更重要的是为未来的实时、交互式视频应用铺平了道路。当我们能够以接近实时的速度生成高质量视频时，AI创作的可能性将得到极大拓展，从游戏娱乐到教育培训，从广告制作到新闻报道，都可能因此而彻底改变。这项研究证明了，有时候最大的突破不是发明全新的技术，而是用更聪明的方式使用现有技术。对于普通用户来说，这意味着更快的响应速度、更流畅的交互体验，以及更广阔的创意可能性。
Q&A
Q1：Block Cascading技术是什么原理？
A：Block Cascading是一种视频生成加速技术，核心原理是让多个视频片段同时并行处理，而不是传统的依次排队处理。就像让多个厨师同时做菜而不是一个接一个做，通过这种"瀑布式"的工作方式，可以将视频生成速度提升2-3倍。
Q2：这个技术需要重新训练AI模型吗？
A：完全不需要重新训练。Block Cascading最大的优势就是可以直接应用到现有的视频生成模型上，只需要改变推理过程，不用修改模型参数。这就像给老电脑安装新的操作系统，硬件不变但性能显著提升。
Q3：普通用户什么时候能用上这项技术？
A：由于Block Cascading不需要重新训练模型，现有的视频生成服务商可以很快集成这项技术。预计在不久的将来，用户在使用AI视频生成工具时就能体验到更快的生成速度和更流畅的交互体验，特别是在需要实时响应的应用场景中。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华中科大突破：虚拟路径训练提升AI图像生成效率40%

澳大利亚气象局网站改版耗资近1亿澳元，用户却呼吁改回旧版

座舱芯片战事：谁能撬开高通「铁王座」的裂缝？

李斌Q3财报闭门会：实现盈利目标没有Plan B，接受任何可能性

清华大学发布RaiseCity：首个能自动建造逼真虚拟城市的AI智能体

继捐款1000万港元后，拼多多上线香港消防用品公益专区

全站最新

华中科大突破：虚拟路径训练提升AI图像生成效率40%

澳大利亚气象局网站改版耗资近1亿澳元，用户却呼吁改回旧版

座舱芯片战事：谁能撬开高通「铁王座」的裂缝？

李斌Q3财报闭门会：实现盈利目标没有Plan B，接受任何可能性

热门推荐

东方财富高管程磊、黄建海、杨浩拟合计减持不超334.99万股，有望套现超7800万

华中科大突破：虚拟路径训练提升AI图像生成效率40%

澳大利亚气象局网站改版耗资近1亿澳元，用户却呼吁改回旧版

中航西飞：公司积极参与国产新型号大飞机研制

座舱芯片战事：谁能撬开高通「铁王座」的裂缝？

澜起科技：时钟芯片产品已通过多家头部客户测试验证，未来将应用于AI服务器与数据中心等领域

让AI走出屏幕赋能实体产业 2025全球开发者先锋大会下月举办

李斌Q3财报闭门会：实现盈利目标没有Plan B，接受任何可能性

清华大学发布RaiseCity：首个能自动建造逼真虚拟城市的AI智能体

继捐款1000万港元后，拼多多上线香港消防用品公益专区

法国理工学院揭秘：让机器像医生一样预判设备"寿命"的突破性技术

Stability AI突破：让视频生成速度提升近3倍的"瀑布式"新技术

都在说AI让内容“提速”，这场报业大会却在谈如何拴上“缰绳”

威廉玛丽学院：让AI模型成为自己的"敌人"，竟然能让它更聪明？

注册资本4.5亿元，长安汽车拟成立长安机器人公司