当前位置: 首页 » 资讯 » 新科技 » 正文

韩国科学技术院联手AIPARK,让视频对口型技术突破实时门槛

IP属地 中国·北京 科技行者 时间:2026-06-17 18:31:36


这项由韩国科学技术院(KAIST AI)与AIPARK联合完成的研究,于2026年6月发表在arXiv预印本平台,论文编号为arXiv:2606.11180。有兴趣深入钻研技术细节的读者可通过该编号查阅完整论文。

你有没有看过那种外语电影的配音版本,演员的嘴型和声音对不上,显得十分违和?或者想过有朝一日,能让任何一段视频中的人物"开口说"另一段话,嘴型还完美吻合?这就是"口型同步"技术要解决的事。简单说,就是拿一段人说话的视频,再配上另一段音频,让视频里的嘴巴动作和这段新音频完全贴合,背景、发型、表情却一点儿没变,仿佛原本就是这样拍的。

这个需求早就不是科幻:直播翻译、虚拟主播、互动AI助手、影视后期配音……每一个场景都在呼唤这样的技术。而研究团队给出的答案,叫做**Lip Forcing**。

**一、口型同步技术的"难题"在哪里**

现有的口型同步技术里,最先进的一批都基于"扩散模型"——一种让计算机从一堆随机噪点里一步步"冲洗"出清晰画面的生成技术,就像摄影师在暗房里把一张曝光不足的底片逐步显影成清晰照片。这类方法生成的视频质量很高,嘴型和音频也能对得很准,但有一个致命伤:**太慢了**。

慢的原因有两个。一是这类模型在处理视频时,会让视频里每一帧都"看见"其他所有帧——无论是前面的还是后面的——就好比让一个人写每一句话的时候都先把全书从头到尾读一遍,再动笔。帧数越多,计算量就成倍增长。二是从噪点到清晰画面的"显影"过程需要走五十步,每一步都要调用一次庞大的神经网络,五十次叠加下来,耗时可想而知。

正是这两道坎,让扩散模型在直播这类对延迟极度敏感的场合几乎无法落地。研究团队统计了一下:一个同规模的双向扩散模型,处理视频的速度还不到每秒两帧,而流畅播放视频至少需要每秒二十五帧。两者相差了十几倍,这就是这项研究要跨越的鸿沟。

**二、从"看完全书再动笔"到"只看已写部分"**

Lip Forcing的第一个核心思路,是把双向模型改造成"自回归"模型。所谓自回归,就是每次只生成一小块视频(研究中叫"chunk",大约是三帧),生成时只参考已经生成好的历史画面,不看未来的内容,就像一个人按顺序讲故事,只回头翻已经讲过的部分,不提前翻后面的章节。

这样改造之后,模型可以边生成边输出,像流水线一样滚动推进,不需要等整段视频全部处理完才能看到第一帧。研究团队给这个特性起了个名字叫"流式推理"(streaming inference),而能够实现这一点的关键机制叫**KV缓存**——每生成完一小块视频,就把这块视频对应的"历史记忆"存起来,下一块视频生成时直接调用,不用重新计算。

为了防止缓存无限膨胀、越积越慢,模型只保留最近六帧的记忆,外加一帧固定的"锚点帧"(研究中叫attention sink,起到稳定身份和背景的作用)。这样,无论视频有多长,计算量都不会随时间增加——就像记忆力有限的人,只记得刚刚发生的几件事,但这些事已经足够他做出准确的下一步判断。

**三、为什么不能简单地把五十步压缩成两步**

把显影步数从五十步压缩到两步,这件事听起来简单,但直接压缩往往会毁掉生成质量——就像把原本需要烤四十分钟的蛋糕强行三分钟出炉,外表可能还好看,但里面全是生的。

研究团队没有盲目压缩,而是先花时间研究老师模型(一个140亿参数、走完五十步显影的完整模型)在每一步"显影"过程中究竟在做什么。他们做了一个实验:在老师模型走的五十步里,每走完一步就拍个"快照",测量这个快照和原始视频的相似度(LPIPS指标),以及嘴型和音频的吻合程度(Sync-C指标)。

结果发现了一个很有意思的规律,研究团队把它命名为**"CFG保真度-同步性权衡"**(CFG fidelity–sync tradeoff)。这里的CFG是一种叫"无分类器引导"的技术,可以理解为一个"音频增益旋钮"——调高这个旋钮,模型会更努力地贴合音频,嘴型和声音的吻合度更高;但代价是生成的脸越来越偏离原始参考视频,细节失真变多。关掉这个旋钮,人脸还原度更高,但嘴型就不那么准了。无论把旋钮拧到哪个固定位置,都没法同时让两个指标都好。

更关键的发现是:这个旋钮在不同的显影阶段,效果是不一样的。研究发现,大约在第二十步到第四十步这个区间内(五十步总数中的中段),调高音频增益对嘴型同步的提升最明显。而在这个区间之外,调高旋钮对同步的帮助很小,却会持续拉低人脸的还原度。

这个发现就好比发现了一个黄金"调味窗口":在特定的烹饪阶段加盐,效果最好;在其他阶段加盐,只会让菜变咸却不更美味。

**四、把这个发现转化成三个具体工具**

明白了老师模型的"脾气"之后,研究团队设计了三个针对性的方法,合在一起构成了Lip Forcing的完整训练配方。

第一个工具叫**Sync-Window DMD(同步窗口分布匹配蒸馏)**。传统的"蒸馏"技术(让小学生模型向大老师模型学习的过程)会在所有训练时刻都统一开启音频增益旋钮,强迫学生在每个阶段都向"嘴型准确但脸部失真"的老师靠拢。Lip Forcing的改进是:只在第二十到第四十步这个黄金窗口内开启旋钮,其他时刻保持旋钮关闭。这样,学生模型在最关键的阶段学会精准的嘴型控制,而在其他阶段则专注于还原真实的人脸细节,两者互不干扰。

第二个工具是**两步推理计划**(two-step inference schedule)。研究团队通过额外的实验确认,只要走完两步,而且第二步恰好落在第三十步位置(一个经过分析确认的"着陆甜点"),生成质量就能接近四步的效果,而只需要一步的一半时间。这个选择刻意偏向了人脸还原度,因为分析表明第三十步是在人脸还原和嘴型同步的联合最优点上偏向还原的一侧——而剩余的嘴型准确度缺口可以由第三个工具来补。

第三个工具是**基于SyncNet的奖励机制**。SyncNet是一个专门判断嘴型和音频吻合程度的"裁判员"模型,早已被学界广泛使用。在训练过程中,研究团队让这个裁判员对每个生成的视频片段打分,分数高的片段对应的训练信号会被乘以一个更大的权重,让模型从这些"做对了"的样本中学到更多。这个奖励机制不会改变模型如何生成视频(训练时不让梯度反传回裁判员),只是静静地告诉模型:这个方向是对的,多往这个方向走。

三个工具协同配合:同步窗口让训练方向准确,两步计划让推理速度够快,奖励机制弥补因偏向还原而留下的同步缺口。

**五、训练过程:先打基础,再精炼**

整个训练分两个阶段进行,就像培养一名厨师的完整路径——先教他基本烹饪技能,再专门训练某道招牌菜的精髓。

第一阶段叫"扩散强迫预训练"。模型在真实的视频数据上学习,每次处理一小块视频,随机加上不同程度的噪点,再练习把它还原出来。这个阶段让模型建立起对人脸和口型的基本理解。训练数据来自三个公开的音视频数据集:VoxCeleb2提供了来自YouTube访谈的超过一百万段多样化人声片段;HDTF提供了约三百六十段高清正面说话视频;Hallo3则补充了动态丰富、场景多样的视频素材。所有视频都经过严格的预处理:统一调整帧率到每秒二十五帧,音频重采样到16千赫兹,使用人脸识别工具把脸部对齐到固定位置并裁剪到512×512像素的正方形,最后还通过SyncNet的置信度分数和图像质量评分过滤掉低质量片段,大约保留了三万个高质量片段。

第二阶段是"自强迫DMD蒸馏",也就是上面说的三个工具正式登场的地方。在这个阶段,模型用自己生成的视频来建立历史上下文(而不是用真实视频),这样训练时和实际运行时的条件一致,避免了"训练时看真实视频、推理时只能看自己的输出"这种落差。这个阶段只运行六百步,但因为每步都在与一个140亿参数的老师模型正面交锋,训练的信息密度很高。

**六、模型的架构:站在巨人肩膀上**

Lip Forcing的骨架来自一个叫OmniAvatar的开源模型,而OmniAvatar的核心又是另一个叫Wan 2.1的视频扩散变换器(可以理解为视频生成领域的"大底座"),分别有十三亿和一百四十亿参数两个规模。研究团队在这个底座上做了两件事:一是把原本的图像生成输入方式改造成视频修复输入方式,把五类信息同时送入模型——原始视频的噪声潜变量、嘴唇区域的二值遮罩、随机抽取的参考帧、被遮罩覆盖后的视频、以及另一段来自同一视频的参考序列;二是通过一个叫"Audio Pack"的模块把音频信号注入到视频潜变量中,音频先由Wav2Vec 2.0编码器提取语音特征,再投影到和视频特征相同的维度,直接叠加到视频信号上。

遮罩的形状采用了一种U形设计,覆盖嘴巴、下巴和沿下颌线的下半张脸,模型只修改遮罩区域内的内容,遮罩外的头发、背景、上半张脸等全部保持原样不变。这一设计让生成结果自然地融入原始视频,看不出拼接感。

对于十四亿参数规模的学生,采用全参数微调;对于一百四十亿参数规模的学生,则使用一种叫LoRA的轻量适配器(可以理解为在大模型上贴一层薄薄的、可训练的"贴膜",只有贴膜会被更新,底层参数保持不动),秩设置为128,显著降低了训练的内存和计算成本。

**七、速度与质量:测试结果说话**

研究团队在HDTF测试集的三十三个视频片段上评估了所有方法,测量了多个维度的表现。速度方面,十三亿参数的Lip Forcing学生达到了每秒31.58帧,比同等规模的双向模型快了17.6倍,比五十步的老师模型快39.8倍,也比另一个主流方法LatentSync快了4.7倍。"第一帧延迟"(从开始处理到看见第一帧画面的时间)在两个规模下都低于一毫秒,而所有其他多步扩散方法的这个数字都在几十毫秒甚至几百毫秒量级。

画面质量方面,Lip Forcing在衡量视频时序一致性的FVD指标上取得了全部方法中最低的数值(14B版本为107.88),明显优于Diff2Lip(285.69)和X-Dub(183.99),也略优于LatentSync(117.91)。在身份保留(CSIM,用人脸特征的相似度衡量)和图像质量(FID)方面,Lip Forcing同样处于领先位置。

嘴型同步方面,Lip Forcing的Sync-C得分(数值越高表示同步越好)略低于Wav2Lip和VideoReTalking等老方法,但研究团队指出这两个老方法的Sync-C已经超过了真实视频的数值(真实视频是7.95,它们分别是8.56和8.22),这意味着它们对Sync-C这个指标存在过度优化的迹象——就像一个学生为了考试高分把答案死记硬背,实际理解能力反而下降了。

为了验证这一判断,研究团队还组织了用户主观评分研究,邀请真实用户对所有方法生成的视频在视频音频同步感、画面质量、身份保留和自然度四个维度上各打一到五分。结果显示,Lip Forcing(14B)在画面质量(4.33分)、身份保留(4.46分)和自然度(4.32分)上均排名第一,在同步感知上与最强基线X-Dub持平(分别是4.38和4.40分),印证了Sync-C数值略低并不等于用户感知的同步感较差。

**八、消融实验:拆开每个零件看效果**

研究团队还做了大量的拆解测试,逐一验证每个设计决策的贡献,就像把一道菜的每种调料单独试吃,确认缺了哪种味道会变差。

关于CFG调味窗口的形状:只在黄金窗口(步骤二十到四十)内开启音频增益,比全程开启(FVD从119.88升至138.32)或全程关闭(FVD为120.85但嘴型同步极差,Sync-C仅6.14)都更好。把窗口"反转"(即在黄金窗口外开启、窗口内关闭)则得到了两者的中间值(FVD为126.62),这反过来验证了原始窗口位置确实是分析确认的最优区域。

关于步数和第二步落点:一步(FVD为131.50)到两步(FVD为119.88)有明显提升,再加到四步(FVD为117.80)提升趋于平缓。第二步落在第三十步位置是分析推荐的选择,比落在第二十五步或第三十七步都能在保真度和同步之间取得更好的平衡;提前到第十三步则两个指标都更差,说明过早结束显影不是一个好选择。

关于SyncNet奖励:在使用全程固定CFG的情况下加入奖励,Sync-C从7.13提升到7.24,FVD从138.32降到135.94;在使用窗口CFG的情况下加入奖励,Sync-C从6.81提升到6.88,FVD基本持平。奖励机制在两种配置下都能稳定改善嘴型同步,同时不明显损害画面质量,发挥了预期的"弥补缺口"作用。

**九、走得更远:长视频和跨身份测试**

研究团队还在两个更具挑战性的场景下测试了Lip Forcing的能力。长视频方面,HDTF中最长有近六分钟的完整视频,而训练时每次只处理约三秒的片段。在这种情况下,Lip Forcing的流式自回归架构展现出了天然优势:历史记忆通过滚动缓存持续传递,身份信息不随时间漂移,FVD(118.97)和人脸相似度(CSIM 0.9450)与短视频测试接近,而X-Dub这类分段处理的方法在长视频中出现了过饱和色彩和身份漂移的明显瑕疵。

跨身份测试则把一段视频配上另一个人说话的音频,考验模型能否在完全不同的音频驱动下产生正确的嘴型动作。Lip Forcing在这个场景下的同步指标(Sync-C为6.27)不及LatentSync(9.05)等更激进优化同步的方法,但研究团队认为这与Lip Forcing刻意偏向还原度的设计取向一致,且画面自然度和身份稳定性依然保持良好。

归根结底,Lip Forcing做成了一件之前从未有人同时做到的事:让一个基于扩散生成的口型同步模型真正跑进实时门槛,同时在画面质量上不落下风。十三亿参数版本每秒三十一帧、延迟不到一毫秒,意味着直播翻译和虚拟主播这类需要即时响应的场景,现在有了一个可用的扩散级画质选项。一百四十亿参数版本则是迄今为止在视频到视频口型同步任务上报道过的最大扩散模型,在画面质量上设立了新的参考点。

这项研究更广泛的意义在于方法论:通过对老师模型的轨迹分析,找到哪些阶段对哪种信号最敏感,然后把这个洞察直接编码进蒸馏的训练策略里。这套分析框架不局限于口型同步,任何需要把大型扩散模型压缩成快速流式学生模型的任务,都可以用类似的思路去做一遍轨迹检查,再定制专属的训练配方。当然,这套配方目前只在一个家族的老师模型上验证过,不同架构的老师是否会呈现相似的规律,还需要未来的研究继续探索。此外,SyncNet作为奖励信号有被过度优化的风险,如何设计更贴近人类感知的音视频对齐目标函数,也是值得深入研究的开放问题。

Q&A

Q1:Lip Forcing口型同步技术为什么比其他扩散模型方法快这么多?

A:Lip Forcing的速度优势来自两个设计:一是把原本需要看完整段视频的双向注意力机制改造成只看历史帧的自回归架构,大幅减少了每步的计算量;二是把五十步的"显影"过程压缩到只需两步,而这两步的位置是通过对老师模型的轨迹分析精心选定的,而非随意删减。两者叠加,让13亿参数版本在单张H100显卡上达到了每秒超过31帧的实时速度。

Q2:Lip Forcing的口型同步准确度为何不如Wav2Lip这类老方法的Sync-C评分高?

A:Sync-C是由SyncNet裁判模型打出的自动分数,Wav2Lip等老方法正是专门针对这个裁判优化的,导致它们的Sync-C甚至超过了真实视频本身,存在过拟合现象。Lip Forcing刻意选择了偏向人脸还原度的操作点,Sync-C略低,但在真实用户评分研究中,用户对Lip Forcing的同步感知打分与最高分基线持平,说明这个数值差距并不影响实际观看体验。

Q3:Lip Forcing口型同步技术目前能处理哪些应用场景,有什么限制?

A:Lip Forcing目前验证的场景包括自驱动口型同步(音频和视频来自同一说话人)和跨身份驱动(用其他人的音频驱动目标人物)两类,支持长达数分钟的流式生成。主要限制是当前只在固定512×512像素的正面人脸视频上训练,对侧脸、遮挡或非人脸内容的泛化能力尚未充分验证;此外目前的配方是在特定的OmniAvatar系列老师模型上推导出来的,对其他架构是否直接适用还需要额外验证。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新