![]()
近期,特伦托大学联合清华大学和电子科技大学的研究团队发表了一项引人注目的研究成果,论文题为《Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models》,发表于2026年3月的arXiv预印本平台,论文编号为arXiv:2603.01400v1。这项研究专门解决了视频AI模型运行时耗电过多、速度过慢的问题,通过一种名为AOT(Anchor with Optimal Transport)的新技术,成功让视频AI在保持几乎相同准确度的情况下,将计算量削减到原来的十分之一。
当前的视频AI模型就像一个过度勤奋的管家,面对一段视频时会仔细分析每一帧画面中的每个细节。但这种做法虽然细致,却带来了巨大的计算负担。以一段几分钟的视频为例,AI需要处理成千上万的"视觉令牌"——可以把它们想象成视频被切割后的小碎片。每个碎片都需要AI花费时间和算力去理解,这就像是要求一个人逐字逐句阅读一本厚重的百科全书,不仅耗时,还可能错过重点内容。
研究团队注意到,现有的视频压缩方法就像用粗糙的橡皮擦来删除内容——要么简单粗暴地删掉一些画面块,要么把相似的内容强行合并。这些方法的问题在于,它们在删除"不重要"信息时,往往会把一些细微但关键的线索也一并抹掉,就像在清理房间时不小心把重要文件也扔进了垃圾桶。
一、化繁为简的"传送门"思维
AOT技术的核心创新在于,它不是简单地删除或合并信息,而是建立了一套精妙的"传送门"系统。设想你要整理一个杂乱的图书馆,传统方法是直接扔掉一些书或者把相似的书捆在一起。但AOT的做法更像是设立几个特殊的"中心书架",然后通过一种叫做"最优传输"的数学魔法,将其他书架上的精华内容都传送到这些中心书架上。
这种方法的巧妙之处在于双重定位策略。研究团队首先在每一帧画面中建立两套定位系统:一套关注画面的整体重要性,就像鸟瞰整个房间找到最重要的家具;另一套则专注于局部细节,如同用放大镜检查每个角落的精致装饰。这样的双重视角确保既不会遗漏大局,也不会忽略细节。
接下来的关键步骤是运用最优传输理论。这个听起来高深的数学概念,实际上可以用一个搬家的比喻来理解。假设你要从一个大房子搬到一个小公寓,你需要决定如何最有效地将大房子里的物品重新分配到小公寓的有限空间中。最优传输就是找到这种分配的最佳方案——既要保证重要物品都能搬过去,又要确保搬运成本最低,还要让新家保持原有的功能性。
二、画面内的精准整理术
在处理每一帧画面时,AOT采用了一种称为"锚点选择"的策略。可以把这个过程想象成在一幅巨大的拼图中选择关键的几块作为"锚点"。这些锚点的选择并非随意,而是通过注意力机制来指导的——就像人眼在观看画面时会自然地被某些重要元素吸引。
具体来说,系统会先分析整个画面,找出那些最能代表画面主要内容的区域,这就是"全局锚点"。同时,它还会将画面划分成若干个小网格,在每个网格中选出最重要的部分作为"局部锚点"。这种做法确保了既能抓住画面的主题,又不会遗漏局部的关键细节。
选定锚点后,真正的魔法开始了。系统使用最优传输算法来决定如何将其他非锚点区域的信息"传送"到这些锚点上。这个过程可以比作烹饪中的"提取精华"——就像制作高汤时,虽然用了很多食材,但最终的高汤浓缩了所有食材的精华。每个锚点都会根据最优传输计划,吸收来自其他区域的重要信息,从而变得更加丰富和完整。
传输的权重计算基于余弦相似度的逆值作为成本函数。简单说,就是越相似的内容传输成本越低,系统会优先将相关信息聚集在一起。整个过程通过Sinkhorn-Knopp迭代算法快速求解,这种算法只需要100次左右的简单矩阵运算就能找到最优方案,计算时间不到总推理时间的1%。
三、时间维度的智能压缩
处理完单个画面后,AOT面临着更大的挑战:如何在时间维度上进行有效压缩。这就像是要将一部长电影压缩成几个关键镜头,既要保持故事的完整性,又要突出重要的情节发展。
研究团队采用了"片段化处理"的策略,将整个视频划分成若干个时间片段。在每个片段中,第一帧被设定为"时间锚点",类似于电影中的关键帧。接下来的帧会与这个时间锚点进行比较和融合。
这个过程的精妙之处在于它的自适应性。当后续帧与锚点帧非常相似时,系统会将它们的信息通过最优传输融合到锚点中,实现压缩。但当遇到差异较大的帧时——比如场景切换、动作变化等关键时刻——系统会保留这些帧作为新的重要信息,确保时间动态不被丢失。
这种方法特别适合处理视频中常见的时间冗余。比如在一段对话场景中,可能有很多帧的背景和人物位置都很相似,AOT会将这些相似信息压缩到少数几个锚点中。但当出现重要的表情变化、手势动作或者场景转换时,这些关键信息会被专门保留下来。
具体的融合过程使用了概率分配机制。系统会计算每个后续帧与时间锚点的相似度,并据此分配传输权重。相似度高的内容会被更多地融合到锚点中,而差异显著的内容则会被保留作为独立的时间变化信息。这样既实现了有效压缩,又保持了视频的时间连续性。
四、全方位性能验证
为了验证AOT技术的有效性,研究团队在四个主要的视频理解基准测试上进行了广泛实验。这些测试包括MVBench(多模态视频理解)、EgoSchema(长时间视频理解)、LongVideoBench(长视频基准)和VideoMME(视频多模态评估)。实验在两个主流的视频AI模型上进行:LLaVA-OneVision-7B和LLaVA-Video-7B。
实验结果令人印象深刻。当保留仅10%的视觉令牌时,AOT在所有测试中平均保持了97.6%的原始模型性能。这意味着使用了AOT技术的视频AI在处理速度提升10倍的同时,准确度仅下降了2.4%。在计算效率方面,AOT将预填充阶段的浮点运算次数(FLOPs)减少到原来的8.3%,这相当于将原本需要几个小时的视频处理任务压缩到几十分钟内完成。
更令人惊喜的是,在某些测试场景中,使用AOT技术的模型甚至比原始模型表现更好。研究团队解释,这是因为大量的冗余信息实际上会干扰AI的判断,就像是在嘈杂环境中很难听清重要对话一样。通过AOT的精确提取和聚合,模型能够更专注于真正重要的视觉信息,从而提升了理解准确度。
在处理不同长度视频时,AOT展现出了良好的扩展性。当输入视频从16帧增加到128帧时,传统模型会因为计算量激增而面临内存限制,但使用AOT的模型能够保持稳定的性能表现。特别是在处理长视频时,AOT的优势更加明显——它能够在保持关键信息的同时,大幅减少冗余计算。
五、技术细节与优化策略
AOT技术的实现包含多个精心设计的组件。在锚点选择阶段,系统采用注意力分数来评估每个视觉令牌的重要性。具体来说,对于具有[CLS]令牌的模型(如CLIP),系统计算[CLS]令牌对其他视觉令牌的注意力权重,选择权重最高的作为全局锚点。对于没有[CLS]令牌的模型(如SigLip),则使用自注意力机制来评估令牌间的相互重要性。
在网格化局部选择中,图像被划分为W个非重叠的窗口,每个窗口内独立选择局部锚点。这种设计确保了空间分布的多样性,避免所有重要信息都集中在画面的某一区域。全局和局部锚点的数量比例通常设置为1:1,以平衡全局语义和局部细节的保留。
最优传输的求解采用了Sinkhorn-Knopp迭代算法,该算法通过熵正则化将原始的线性规划问题转换为可快速求解的形式。实验中迭代次数设置为100次,足以达到收敛而不会带来显著的计算开销。熵正则化参数λ设置为0.1,这个值在多次实验中被证明能够提供最佳的性能平衡。
在时间维度的处理上,系统支持两种片段划分策略:均匀采样和自适应聚类。均匀采样适合处理内容变化相对稳定的视频,而自适应聚类则根据视频内容的复杂度动态调整片段长度。对于复杂场景,系统会产生更多更短的片段以保留细节;对于简单场景,则使用较长的片段提高压缩效率。
六、与现有方法的详细比较
AOT技术与现有视频压缩方法的对比展现了其独特优势。传统的空间压缩方法,如VisionZip,主要关注单帧内的令牌合并,在保留20%令牌时性能下降约2%,但在更激进的10%保留率下性能急剧下降8.4%。这种性能崩溃主要是因为纯空间压缩忽略了视频的时间特性。
时间压缩方法如DyCoke采用固定的帧组策略,将视频帧分组并只保留每组的第一帧。这种方法的局限在于它无法适应视频内容的动态变化,对于动作频繁的视频会丢失大量重要信息。实验结果显示,DyCoke在25%保留率下的性能下降约7.5%,明显高于AOT的1.9%。
混合压缩方法如PruneVid在LLM的浅层进行反复剪枝,虽然能同时处理空间和时间冗余,但重复的剪枝操作会累积误差,最终影响整体效率。FastVID通过密度感知的剪枝策略有所改进,但仍然采用的是"删除"而非"聚合"的思路,难以充分利用被删除令牌中的有用信息。
相比之下,AOT的核心优势在于"信息聚合"而非"信息丢弃"。通过最优传输理论,AOT能够将被压缩令牌的精华内容传递给保留的锚点,这种方法确保了信息的最大化利用。实验数据显示,在相同的10%令牌保留率下,AOT比最佳基线方法的性能高出约1.1个百分点,这种优势在处理复杂视频内容时更加明显。
七、深入理解最优传输机制
最优传输理论在AOT中的应用可以通过一个精巧的水资源分配比喻来理解。假设有一片干旱地区,分散着许多小水源和几个大型储水库。最优传输的目标是找到最经济的方式,将所有小水源的水都输送到大储水库中,同时最小化总的输送成本。
在AOT的语境中,那些被选中的锚点就像大储水库,而其他视觉令牌则像小水源。每个小水源携带的"水"就是它包含的视觉信息,而输送成本则由令牌间的相似度决定——相似度越高,输送成本越低,因为相关信息更容易整合。
传输方案的计算涉及复杂的优化过程。系统需要为每一对源令牌和目标锚点计算传输量,确保所有信息都能被适当分配,同时满足每个锚点的容量限制。这个过程通过构建成本矩阵来实现,矩阵中每个元素代表从特定源令牌向特定锚点传输信息的成本。
Sinkhorn算法通过迭代优化来快速求解这个分配问题。算法从一个初始的传输方案开始,然后通过交替更新行和列的归一化因子来逐步改进方案。每次迭代都会让传输方案更接近最优解,而熵正则化项确保了解的唯一性和数值稳定性。整个过程通常在100次迭代内收敛,计算时间仅为几毫秒。
传输完成后,每个锚点都会根据接收到的信息进行更新。更新公式采用了加权平均的形式,其中权重由最优传输方案确定。这意味着每个锚点的最终表示是原始信息和接收信息的智能融合,既保持了自身的核心特征,又吸收了其他令牌的有用信息。
八、实验设计与性能分析
研究团队设计了一系列全面的实验来验证AOT技术的有效性。实验环境使用8张NVIDIA A100 GPU,每张显卡配备40GB显存,确保了充足的计算资源。模型配置方面,LLaVA-OneVision使用32帧输入(每帧196个令牌),而LLaVA-Video使用64帧输入(每帧169个令牌),这些配置反映了不同模型对视频处理的特点。
在10%令牌保留预算下,锚点数量被设置为126(LLaVA-OneVision)和108(LLaVA-Video)。这个数量是通过大量实验优化得出的,既能保证充分的信息表示,又能实现显著的压缩效果。权重系数λ_intra和λ_inter都设置为1.0,这个参数控制着信息融合的强度,实验证明这是最佳的平衡点。
消融实验的结果特别有启发性。当只使用全局锚点时,模型性能为96.9%;只使用局部锚点时为94.9%;而结合两者时达到了97.6%。这证明了双重锚点策略的必要性——全局锚点保证了语义的完整性,局部锚点确保了细节的保留。
在不同压缩比例下的表现也很值得关注。25%保留率下,AOT达到99.5%的性能保持率,几乎没有损失;20%时为99.7%;15%时为98.6%;即使在极端的10%保留率下,仍能保持97.6%的性能。这种平滑的性能下降曲线表明AOT具有良好的可控性和鲁棒性。
处理不同帧数时的扩展性测试显示,当视频帧数从16增加到128时,传统方法会遇到内存瓶颈,而AOT能够维持稳定的处理能力。特别是在处理128帧的长视频时,AOT将上下文长度保持在可管理范围内,而原始模型则会超出最大上下文限制。
九、技术局限与改进方向
尽管AOT技术取得了显著成果,研究团队也坦诚地指出了当前方法的一些局限性。最主要的问题是时间锚点的构建仍然采用启发式方法,缺乏像单帧锚点那样的理论基础。目前的做法是将每个时间片段的第一帧作为锚点,这种简单策略虽然实用,但可能不是最优选择。
时间分段的边界检测也存在噪声问题。无论是使用固定分段还是动态聚类,都可能将视觉差异较大的帧错误地分组在一起,从而影响压缩效果。特别是在复杂的视频场景中,这种分组错误可能导致重要的时间动态信息丢失。
另一个值得注意的局限是,虽然AOT以训练无关的方式运行,但整个推理流程实际上是端到端可微分的。这为将来的改进提供了可能性——研究团队提到,未来可以探索将最优传输策略集成到模型训练过程中,通过梯度反向传播来进一步优化压缩策略。
计算开销方面,虽然Sinkhorn算法相对高效,但在处理极长视频时仍然可能成为瓶颈。当前的实现在100次迭代下运行良好,但对于实时应用场景,可能需要进一步优化迭代次数和收敛策略。
研究团队还指出,当前的方法主要针对视频理解任务优化,对于其他类型的多模态任务(如视频生成、视频编辑等)的适用性还有待验证。此外,AOT技术在3D/4D空间智能任务中的扩展应用也是一个有趣的研究方向。
十、实际应用前景与意义
AOT技术的成功为视频AI的实际应用打开了新的可能性。在移动设备上运行复杂视频模型一直是个挑战,因为这类设备的计算能力和电池容量都有限。AOT通过将计算量减少90%,使得在智能手机或平板电脑上运行高质量视频AI成为可能。
在云服务领域,AOT技术可以显著降低服务提供商的运营成本。视频内容分析服务通常需要大量的GPU资源,而AOT的10倍速度提升意味着相同的硬件资源可以处理更多的用户请求,或者以更低的成本提供相同质量的服务。
教育技术是另一个受益明显的领域。在线教育平台经常需要自动分析课程视频来生成字幕、提取关键概念或评估学习效果。AOT技术可以让这些功能在更多设备上流畅运行,降低技术门槛,让更多教育机构能够负担得起先进的AI功能。
内容创作行业也可能迎来变革。视频编辑软件可以集成基于AOT的AI功能,实时分析视频内容并提供智能建议,而不需要用户等待漫长的处理时间。这种即时反馈可以大大提升创作者的工作效率和创作体验。
医疗影像分析是另一个重要应用场景。医生经常需要分析大量的医疗视频,如内窥镜检查、超声波扫描等。AOT技术可以让AI辅助诊断系统更快地处理这些视频,为医生提供及时的分析结果,potentially挽救更多生命。
从技术发展的角度来看,AOT代表了一种新的思路:不是简单地删除或合并信息,而是通过数学优化来智能地重新分配信息。这种"信息守恒"的理念可能会启发更多领域的技术创新,不仅限于视频处理,还可能应用到图像处理、自然语言处理等其他AI领域。
说到底,AOT技术的意义不仅在于它解决了视频AI的效率问题,更在于它展示了一种全新的信息处理哲学。在这个信息爆炸的时代,如何在保持信息完整性的同时提高处理效率,是所有技术发展都需要面对的核心挑战。特伦托大学团队的这项研究为这个挑战提供了一个优雅的解决方案,相信它会为未来的AI技术发展提供重要的启发和指导。对于想要深入了解技术细节的读者,可以通过论文编号arXiv:2603.01400v1查询完整的研究报告。
Q&A
Q1:AOT技术是什么?
A:AOT(Anchor with Optimal Transport)是由特伦托大学等机构开发的视频AI压缩技术,它通过建立"锚点"系统和最优传输算法,将视频中的冗余信息智能地聚合到关键位置,而不是简单删除,从而在保持97.6%准确度的同时将计算量减少90%。
Q2:AOT技术比其他视频压缩方法好在哪里?
A:传统方法要么直接删除信息要么强行合并相似内容,容易丢失重要细节。AOT采用"信息聚合"而非"信息丢弃"的策略,通过数学优化将被压缩部分的精华传送到保留的锚点上,确保信息最大化利用,性能比最佳基线方法高出约1.1个百分点。
Q3:普通用户什么时候能用上AOT技术?
A:AOT技术目前还处于研究阶段,但其显著的效率提升使得在移动设备上运行复杂视频AI成为可能。预计未来几年内,这项技术可能会被集成到视频编辑软件、在线教育平台和各种消费级AI应用中,让用户享受更快速流畅的AI视频分析体验。





京公网安备 11011402013531号