![]()
这项由香港中文大学的郭宇伟、字节跳动的杨策元等研究团队合作完成的突破性研究,于2024年12月发表在计算机视觉领域的顶级会议上。对这项研究感兴趣的读者可以通过arXiv:2512.15702v1查询完整论文。研究团队提出了一种名为"重采样强制训练"(Resampling Forcing)的全新框架,专门解决AI视频生成中的"健忘症"问题。
当我们谈论AI生成视频时,大多数人可能会想到那些令人印象深刻的短片段。但是,如果你曾经尝试让AI生成一段较长的视频,你可能会发现一个奇怪的现象:视频开始时还很正常,但随着时间推移,画面开始变得模糊、扭曲,甚至完全崩坏。这就像一个人在讲故事时,开始讲得很好,但说着说着就忘记了前面的情节,最后整个故事变得不知所云。
这种现象在AI领域被称为"曝光偏差"(exposure bias),它是自回归视频生成模型面临的核心挑战。自回归模型的工作原理类似于人类讲故事:它需要根据前面已经生成的内容来决定下一个画面应该是什么样的。在训练阶段,AI模型就像一个学生在课堂上练习,老师会给它提供完美的参考答案。但在实际应用中,AI必须依赖自己之前生成的内容,而这些内容往往并不完美。这种训练与实际应用之间的差异,就是导致视频质量逐渐恶化的根本原因。
研究团队通过一个生动的比喻来解释这个问题:想象一个厨师在学做菜时,总是使用最新鲜、最完美的食材进行练习。但在真正的厨房里,他必须使用之前处理过的、可能已经有些变质的食材来继续烹饪。结果可想而知,整道菜的质量会越来越差。
为了解决这个问题,之前的研究者们尝试了各种方法。有些研究采用了"后训练"策略,即先训练一个基础模型,然后再进行额外的调整。然而,这些方法通常依赖于一个"双向教师模型"或在线判别器。双向教师模型的问题在于它能够"看到未来",这违背了现实世界中时间的单向性原则。就像一个预言家在指导学生时,不小心泄露了未来的信息,导致学生无法真正掌握推理能力。
字节跳动和香港中文大学的研究团队提出的"重采样强制训练"方法,就像是为AI学生创造了一个更加真实的练习环境。在这个环境中,AI不再依赖完美的参考资料,而是要学会在不完美的条件下继续工作。
具体来说,研究团队设计了一种"自我重采样"机制。这个机制的工作原理类似于一个特殊的训练程序:AI模型首先会故意在历史画面中引入一些错误,模拟真实使用时可能出现的不完美情况。然后,它必须基于这些带有错误的历史画面来预测下一个画面。这样的训练方式使得AI模型变得更加"鲁棒",即使面对不完美的输入,也能保持相对稳定的输出质量。
这种方法的巧妙之处在于,它并不试图完全消除错误,而是教会AI如何在错误存在的情况下继续正常工作。就像教一个司机不仅要在完美的道路条件下驾驶,还要学会在雨天、雾天等不理想条件下安全行驶。
研究团队在实现这个想法时,面临了一个重要的技术挑战:如何模拟真实的模型错误。他们采用了一种创新的方法,通过自回归重采样来模拟推理时的模型错误。这个过程分为两个步骤:首先,他们向真实视频帧添加噪声,使其降级到某个中间时间步;然后,使用在线模型权重完成剩余的去噪步骤,产生包含模型错误的降级帧。
为了控制这个过程,研究团队引入了一个重要参数:仿真时间步ts。这个参数控制着历史忠实度和错误纠正灵活性之间的平衡。较小的ts值会产生接近真实的降级样本,鼓励模型保持对历史帧的忠实,但可能导致错误累积。较大的ts值则为错误纠正提供更大的灵活性,但可能导致内容漂移。研究团队通过数学建模,找到了最优的ts分布,确保在两个极端之间取得最佳平衡。
另一个重要创新是"历史路由"机制。随着视频长度的增加,AI需要处理的历史信息越来越多,这就像一个人的记忆负担越来越重。传统的解决方案是使用"滑动窗口"方法,只关注最近的几个画面,但这种方法会损害长期依赖关系,影响视频的全局一致性。
研究团队提出的历史路由机制,就像给AI配备了一个智能的记忆管理系统。这个系统能够动态地从大量历史画面中选择最相关的k个画面进行关注,而不是简单地只看最近的画面。这种选择是基于内容相关性的,而不是基于时间距离的。就像一个经验丰富的编剧在写续集时,会回顾整个故事线中最相关的情节,而不仅仅是上一集的内容。
在技术实现上,研究团队使用了点积作为选择标准,通过查询令牌qi和历史帧描述符之间的相似度来确定最相关的历史帧。这种方法将每个令牌的注意力复杂度从线性O(L)降低到常数O(k),其中L是历史帧数量,k是选择的帧数。当k设置为一个小值时,可以实现很高的稀疏性,但路由机制以头级和令牌级的方式操作,意味着不同注意力头和空间位置的令牌可以路由到不同的历史混合,集体产生比k帧大得多的有效接受域。
研究团队在实验设计上也展现了周密的考虑。他们基于WAN2.1-1.3B架构构建了自己的方法,并加载了预训练权重以加速收敛。原始模型使用双向注意力生成5秒视频(81帧),分辨率为480×832。研究团队修改了时间步条件以支持每帧噪声级别,并使用torch.flex_attention()实现了稀疏因果注意力,没有增加额外参数。
训练过程采用了分阶段策略。首先,在切换到因果注意力后,模型使用教师强制目标在5秒视频上训练10,000步进行预热。然后转换到重采样强制训练,先在5秒视频上训练15,000步,再在15秒视频(249帧)上训练5,000步。最后,启用稀疏历史路由进行1,500次迭代的微调。训练批次大小为64,AdamW优化器的学习率为5×10^-5。时间步移位因子设置为s=0.6,top-k历史路由中k=5。为了提高效率,历史重采样使用1步Euler求解器。
实验结果展示了该方法的显著优势。在定性比较中,研究团队将他们的方法与多个现有的自回归视频生成基线进行了比较,包括SkyReels-V2、MAGI-1、NOVA、Pyramid Flow、CausVid、Self Forcing和LongLive等。结果显示,大多数严格的自回归模型在长视频生成中都出现了错误累积现象,表现为颜色、纹理和整体清晰度的逐渐下降。
特别值得注意的是与LongLive的比较。LongLive虽然在长距离视觉质量方面表现良好,但研究团队发现,从短双向教师模型蒸馏的方法无法确保严格的因果关系。在"倒牛奶"的例子中,LongLive产生的液体水平先上升后下降,违反了物理定律。相比之下,研究团队的方法保持严格的时间因果关系:液体水平单调增加,同时源容器变空。
定量评估使用VBench提供的自动指标进行。所有模型都被要求生成15秒视频,然后将其分为三个片段分别评估,以更好地评估长期质量。结果表明,该方法在所有视频长度上都保持了可比的视觉质量和优越的时间质量。在更长的视频长度上,该方法的性能也与长视频蒸馏基线LongLive相当。
研究团队还进行了详细的消融研究。他们比较了不同的错误模拟策略,包括噪声增强、并行重采样和自回归重采样。结果显示,自回归重采样策略取得了最高质量,其次是并行重采样和噪声增强。研究团队认为这是因为加性噪声与模型的推理时错误模式之间存在不匹配,以及并行重采样只捕获每帧降级而忽略跨时间的自回归累积。
在仿真时间步移位的研究中,研究团队发现模型性能对移位因子s的选择相对鲁棒。使用极端值进行消融以更好地可视化移位因子的影响,结果显示,使用小s值训练的模型表现出错误累积和质量下降,而非常大的s值会降低与历史的语义一致性,增加初始内容漂移的风险。因此,适中的s值对于在缓解错误累积和防止漂移之间取得平衡至关重要。
稀疏历史策略的比较显示,路由到前20个历史帧中的前5个能够在75%的稀疏性下产生与密集注意力相当的质量。将前5个减少到前1个(95%稀疏性)只造成轻微的质量下降,证明了路由机制的鲁棒性。研究团队进一步对比了前1个路由与大小为1的滑动窗口,尽管稀疏性相等,但路由机制在鱼的外观一致性方面表现更优。他们假设滑动窗口注意力的固定和局部化感受野加剧了漂移风险,而动态路由使每个查询令牌能够选择不同的历史上下文组合,集体产生更大的有效感受野,更好地保持全局一致性。
历史路由频率的分析揭示了有趣的模式。研究团队实验了k=1,3,5,7,并可视化了在生成第21帧时前20帧的选择频率。结果显示,选择频率呈现混合"滑动窗口"和"注意力汇聚"模式:路由器优先选择初始帧以及紧接在目标之前的最近帧。这种效果在极端稀疏性(k=1)下最为明显,随着稀疏性降低(k=1→7),分布变得更加均匀,包含更广泛的中间帧。
这项研究的意义不仅仅在于技术创新,更在于它为AI视频生成领域指出了一个新的发展方向。传统的方法试图通过更复杂的模型架构或更大的数据集来提高质量,而这项研究则从训练策略的角度入手,通过模拟真实应用场景来提高模型的实用性。
当然,这项研究也有其局限性。作为基于扩散的方法,该模型需要迭代去噪步骤进行推理,实现实时延迟可能需要后续加速,如少步蒸馏或改进的采样器。此外,训练过程涉及处理双重序列(扩散样本和清洁历史),可能通过类似于其他研究的架构优化来改进。
尽管如此,这项研究为未来的AI视频生成技术奠定了重要基础。它不仅解决了现有技术的核心问题,还为长视频生成、实时交互式视频生成等应用场景提供了可行的解决方案。随着技术的进一步完善,我们可以期待看到更长、更连贯、更符合物理定律的AI生成视频。
说到底,这项研究最大的贡献在于它改变了我们对AI训练的思考方式。它告诉我们,有时候最好的训练方法不是给AI提供完美的条件,而是让它学会在不完美的现实中正常工作。这种思路不仅适用于视频生成,可能对整个AI领域都有重要的启发意义。对于普通用户来说,这意味着未来我们将看到更加稳定、可靠的AI视频生成工具,能够创造出更长、更连贯的视频内容,为内容创作、教育、娱乐等领域带来新的可能性。
Q&A
Q1:什么是重采样强制训练,它如何解决AI视频生成的问题?
A:重采样强制训练是一种新的AI训练方法,它通过故意在训练时给AI提供不完美的历史画面,让AI学会在真实应用中面对自己之前生成的不完美内容时仍能保持稳定的输出质量,就像教司机在各种路况下都能安全驾驶一样。
Q2:历史路由机制是如何工作的,有什么优势?
A:历史路由机制就像给AI配备了智能记忆管理系统,它能从大量历史画面中动态选择最相关的画面进行关注,而不是简单地只看最近的画面。这样既减少了计算负担,又保持了视频的长期一致性。
Q3:字节跳动这项研究对普通用户有什么实际意义?
A:这项研究将让AI视频生成变得更加稳定可靠,用户可以生成更长、更连贯的视频内容,而不会出现画面逐渐崩坏的问题,这对内容创作、教育和娱乐等领域都有重要价值。





京公网安备 11011402013531号