![]()
这项由蚂蚁集团、浙江大学、中南大学及香港科技大学(广州)联合开展的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.07512,感兴趣的读者可通过该编号在arXiv平台上查阅完整原文。
**研究概要:当AI面对两小时的电影,它会迷失**
假设你要看一部两小时的电影,然后回答一道细节题:"女主角第一次见到反派时,背景音乐是什么风格?"你会怎么做?你肯定不会把这两个小时的画面全部一秒一秒地硬塞进脑子里,而是会先建立一个大致的情节脉络,记住重要场景,然后根据问题去翻找那段记忆。
现在的AI视觉语言模型(简单理解为"能看视频、能回答问题的AI")面对超长视频时,偏偏采用了最笨的那种方式——把所有画面全部塞进去处理。对于一部两小时的720P视频,按每秒一帧来算,会产生超过162万个"视觉词"(学术上叫"token")。这个数字远远超出了当前AI能处理的范围,就像要求一个人一次性背下162万个单词,根本记不住,而且越到后面越乱。
正是为了解决这个问题,研究团队提出了一套名为MEMDREAMER(可以理解为"记忆梦想家")的全新方法。这套方法的核心思路出奇地朴素:把"感知"和"思考"分开来做,先让AI把视频内容整理成一本结构清晰的"记忆笔记本",再让另一个AI根据问题去翻这本笔记本找答案。这篇研究在四个主流超长视频理解评测基准上刷新了最好成绩,与人类专家水平的差距缩小到了仅3.7分,同时只需要原来2%的处理窗口,就能实现更好的效果。
一、问题根源:把162万个词硬塞进AI大脑,会发生什么?
要理解这项研究的价值,得先弄清楚现有AI系统在处理超长视频时究竟卡在哪里。
目前主流的做法,被研究团队称为"端到端耦合"模式。简单说,就是把视频的所有画面都转化为AI能理解的数字信号(也就是"token"),然后全部一股脑地扔给AI,让它同时处理视觉感知和逻辑推理两件事。这就像让一个人同时接收无数条信息,还要求他立刻对每一条信息都做出判断。
这种方式带来了两个致命问题。第一个是"词语爆炸":哪怕是Gemini-2.5-Pro这样目前最顶级的AI,处理一部普通的超长视频也需要塞进去78万个词,这已经逼近了它的极限。第二个问题更隐蔽,叫做"注意力稀释"——当一个人需要同时关注太多东西的时候,他对每一件事的关注度都会下降,最终关键信息会淹没在海量噪音中。学术界把这个现象形象地称为"迷失在中间",意思是AI会记住开头和结尾,但中间大量重要内容会被遗忘或忽视。
研究数据非常直观地说明了这个问题。以最常用的超长视频评测集LVBench为例,Gemini-3.1-Pro在端到端模式下需要处理26.5万个词,得分78.2;Gemini-2.5-Pro需要处理78.4万个词,得分反而只有72.0;Qwen3-VL需要处理24万个词,得分更低,只有63.6。词越多,表现越差,这个规律在这里体现得相当明显。
二、核心思路:先建"记忆宫殿",再派"侦探"查案
MEMDREAMER的解决方案,可以用一个侦探破案的比喻来理解,而且这个比喻会贯穿整个方法的始终。
一个优秀的侦探在接到一个复杂案件时,不会把案件现场的每一张照片、每一份笔录同时铺在桌上,然后企图一眼扫清所有细节。他会先系统地整理案件档案,建立一个从宏观到微观的案件知识库:先有总体案情概述,再有按时间线整理的重要事件,最后才是每个事件的具体细节和人物关系。等到需要回答某个具体问题时,他才会有针对性地翻出相关档案,顺着线索抽丝剥茧。
MEMDREAMER的工作方式与此如出一辙。整个系统分为两个完全分离的阶段:第一阶段,一个专门负责"看视频"的AI(感知模型)把整部视频从头到尾看一遍,把看到的内容整理成一本结构化的文字笔记,这本笔记就是所谓的"层级图谱记忆";第二阶段,一个专门负责"推理"的AI(推理模型)完全不接触原始视频,只拿着这本文字笔记,根据问题去主动查找线索,最终给出答案。
这个分离的设计带来了一个在研究人员看来非常重要的副产品:推理模型的能力强弱,直接决定了最终答案的质量。研究团队发现,在端到端模式下,AI自身的逻辑推理能力和它在超长视频上的表现几乎没什么关系(统计学上的相关系数只有0.70,且不够显著);但换成MEMDREAMER,两者之间呈现出极强的正相关(相关系数高达0.897,统计显著)。换句话说,通过这套方法,AI的"脑力"终于真正用在了刀刃上。
三、记忆宫殿的建造:从"总纲"到"细节图"的三层档案系统
现在来详细看一看这本"侦探案件档案"是怎么建立的。
建立档案的过程分三步完成,感知模型像是一位专业的档案员,按照严格的体系将视频内容逐层整理。
第一步叫"流式自适应切割"。感知模型不是把视频每隔固定30秒切一刀,而是根据内容的语义边界来划分。就像写书的时候,章节的划分不是按字数来的,而是按内容的自然段落来的。系统使用一个最长10分钟的滑动窗口,在每个窗口内找出内容完整的"宏观事件"(类比档案里的一个个独立案例),然后从最后一个完整事件的结束时间点开始,滑到下一个窗口。这样做有两个好处:每个宏观事件都是语义完整的,不会被随意截断;同时每次处理的视频长度不超过10分钟,保证感知模型不会被过长的内容压垮。
第二步叫"向下子图提取",负责把每个宏观事件的内部细节记录清楚。对于切割好的每一段视频,感知模型会构建一张局部关系图,也就是档案里的那些详细案卷。这张图里有两种节点:一种是"实体节点",记录人物(比如女主角、反派)、物体(比如一把匕首)、地点(比如咖啡馆)、群体等;另一种是"微观事件节点",记录具体发生了什么动作(比如"女主角将匕首放入包中")。这两种节点之间通过三类边连接起来:描述空间位置关系的"空间-属性边"(比如"匕首位于包的内部")、描述谁做了什么的"主体-客体边"(比如"女主角执行了放入动作")、以及描述事件前后因果关系的"时序-因果边"(比如"发现追踪——导致——匕首藏入包")。这套精细的图谱结构能捕捉到光靠文字描述很难表达的复杂因果链条。
第三步叫"向上层级聚合",负责把所有宏观事件整合成一本有层次的总档案。感知模型把所有宏观事件的文字描述作为基础节点,按照时间相邻性和语义相似性,把相关联的宏观事件合并成"超级事件"(类比档案里的"案件阶段",比如"嫌疑人跟踪阶段"、"证据收集阶段")。所有超级事件再向上汇聚成最顶层的一个"视频根节点",包含整个视频的全局概述、主题标签和关键实体。
以电影《疯狂动物城》为例,最顶层的视频根节点会写:兔子警官朱迪与狐狸尼克合作调查掠食者失踪案,追查到助理市长绵羊主谋的阴谋,最终在博物馆揭穿真相。往下一层是超级事件,比如"抄表员任务与狐狸骗局"(时间范围16:47-26:30)。再往下是宏观事件,比如"遭遇棒冰骗局"(时间范围17:39-23:43)。最底层是对应的子图,详细记录尼克如何欺骗大象冰淇淋店、用买来的冰棍骗取材料、再把材料卖给小狐狸芬尼克的整个因果链条。
四、侦探查案:用"工具箱"主动探索记忆宫殿
建好档案只是第一步,更关键的是推理模型如何用好这套档案。
传统的做法是"语义相似度检索"——相当于让侦探直接搜索"和案件关键词相似的文件"。但这种方法有个根本缺陷:视觉上相似的片段,不一定在逻辑上和问题有关;而且一次检索往往找不到全部答案,需要根据第一步的结果调整策略,继续深挖。
MEMDREAMER为推理模型准备了一套专业的"侦探工具箱",包含七件工具,分属三个类别。
第一类是"导航工具",用于在档案的层级结构中上下穿梭。具体包括:获取视频总概述(相当于看案件摘要)、列出所有超级事件(相当于看案件阶段目录)、获取某个超级事件下的宏观事件(相当于展开某个阶段的详细目录)、获取某个宏观事件的子图(相当于打开某个具体事件的详细案卷)。
第二类是"精确搜索工具",包括语义搜索(输入一段描述性文字,系统找出语义最相近的节点)和时间搜索(输入一个时间段,系统返回该时间段内的宏观事件)。
第三类是"图谱遍历工具",可以获取任意节点的所有关联边,沿着因果链条进行多步跳转。这相当于侦探顺着"A导致了B,B又使得C发生"的逻辑链条,一步步追踪到最终答案。
推理模型使用这套工具箱的方式,是一个反复循环的"观察-推理-行动"过程。每一轮,推理模型先看一眼目前已知的信息,思考还缺什么,然后选择一个工具去执行。拿到工具返回的信息后,推理模型不是把所有原始信息都硬塞进记忆,而是先提炼出其中与当前问题真正相关的关键线索,只保留有用的部分。然后再进行下一轮判断:信息够了吗?够了就给出答案,不够就选择下一个工具继续挖掘。系统最多允许进行12轮工具调用,平均只需要3轮左右就能找到答案。
在论文中有一个很典型的例子:有人问"尼克卖的棒冰里的冰淇淋(果汁)来自哪里?"推理模型先用导航工具获取视频的超级事件列表,判断这个问题大概在哪个阶段。然后用语义搜索工具,输入"尼克卖棒冰"找到相关节点,确定这个事件在宏观事件2.2中。最后获取该宏观事件的子图,从因果边中读出:尼克在大象冰淇淋店购买了一根巨型棒冰(Jumbo Pop),把融化的冰淇淋汁装进容器,再用树枝棍制作成小棒冰出售。答案就藏在这条因果链里。
五、实验数据:数字背后的真实差距
研究团队在四个权威评测集上验证了MEMDREAMER的效果,这四个评测集分别针对不同类型和时长的视频,形成了相当完整的覆盖。
LVBench是最严苛的测试,包含103部视频(每部30分钟到2小时),共1549道题,分成6个子类。在这里,MEMDREAMER搭载Gemini-3.1-Pro推理模型,得分90.7,比同一个模型在端到端模式下的78.2高出12.5分,与人类专家94.4分的差距缩小到了3.7分。搭载开源模型Qwen3-VL,端到端模式只有63.6,换成MEMDREAMER直接跳到84.8,提升了足足21.2分。搭载Gemini-2.5-Pro的版本从72.0提升到80.7,提升8.7分。这三个数字共同说明了一个事实:无论底座模型如何,MEMDREAMER都能带来实质性提升。
LongVideoBench包含753个视频和1337道题,MEMDREAMER的最好成绩达到92.9,比对应的端到端基线高出14.3分。Video-MME的长视频部分,最好成绩92.1,高出11.8分。EgoSchema专注于第一人称视角视频的推理,最好成绩88.2,高出11.4分。
与其他记忆型视频系统相比,MEMDREAMER的优势同样明显。之前的最强竞争对手VideoARM在LVBench上得79.7,在Video-MME上得81.2;DVD在LVBench上得74.2,在Video-MME上得67.3。MEMDREAMER在两个评测集上都对这些系统形成了显著超越。
在处理效率上的对比同样令人印象深刻。端到端模式下,推理模型需要消化的视频词数在24万到78万之间;而在MEMDREAMER的框架下,推理模型每轮只需要处理不到6200个词,大约是端到端模式的1/40到1/124。用更少的"阅读量",换来了更高的准确率,这正是分离感知与推理所带来的核心优势。
六、拆解实验:哪部分贡献最大?
为了弄清楚这套方案里每个设计的真实价值,研究团队进行了一系列细致的对比实验,把系统拆开来逐一检验。
关于"层级结构"和"图谱结构"哪个更重要,实验给出了清晰的答案。去掉所有高级设计、使用最简单的平铺文字块存储(1D Flat-Chunk),LVBench得分77.4。只加入图谱结构、保持平铺(1D Flat-Graph),得分跳到84.8,提升了7.4分——说明时序和因果图谱关系对于保持事件连续性非常关键。只加入层级结构、去掉图谱(Hierarchical-Chunk),得分跳到86.3,提升了8.9分——说明多粒度的层级导航能有效避免AI在细节里迷路。两者合用(完整的MEMDREAMER),得分达到90.7,比简单相加还要高,说明两者之间存在协同增强效应,层级结构解决"在哪里找",图谱结构解决"怎么理解因果",二者互补。
关于检索方式的对比,单纯依赖语义相似度检索(Vanilla Embedding)只有70.5分,还不如直接把整个文字记忆塞给AI(Full Memory Context,78.9分)。但Full Memory Context在推理类子题上的表现很差,只有72.7分——大量无关的图谱结构信息反而干扰了逻辑推理。只用主动搜索、不用图谱遍历工具(Agentic Search Only)得80.2,加上完整的7件工具(Agentic Full Tools)飙升到90.7。说明单纯的主动搜索还不够,沿着因果边进行多跳遍历才是解决复杂推理题的关键。
关于工具调用轮数上限,研究团队测试了8轮、10轮、12轮、15轮四种设置。从8轮的88.7稳步上升到12轮的90.7,但15轮时略微回落到90.2。更有意思的是,不管上限怎么设,推理模型平均只使用了2.87到3.07轮就停下来了,说明AI足够"自律"——找到答案就停,不会无谓地消耗工具调用次数。每轮处理的词数也基本稳定在6000左右,没有随轮数上限的增加而显著膨胀。
关于感知模型和推理模型的搭配灵活性,研究团队测试了Gemini-2.5-Pro和Gemini-3.1-Pro两种感知模型分别搭配不同推理模型的组合。当推理引擎相同时,换用不同的感知模型,最终准确率的变化仅在0.4到1.4个百分点之间。这说明由于感知阶段每次只处理不超过10分钟的短视频,不同感知模型的能力差距在这里基本被抹平,整个系统对感知模型的依赖度很低,表现出良好的"容错性"。
七、推理能力才是真正的天花板
研究中最具启发性的一个发现,值得单独拿出来讲一讲。
研究团队测试了8个不同的大语言模型,把它们在数学奥赛题(AIME 2025)上的成绩和在LVBench上的成绩放在一起对比。AIME 2025是一个纯文字的数学推理竞赛,和视频完全无关,它代表的是AI纯粹的逻辑推理能力。
在端到端模式下,推理能力和视频理解能力之间的关联非常微弱,相关系数只有0.70,而且在统计学上不够显著(p值0.052)。换句话说,一个推理能力强的AI,在端到端模式下并不一定比推理能力弱的AI表现更好——因为它被海量的视觉噪声给淹没了,根本用不上自己的推理优势。
但在MEMDREAMER框架下,这个相关系数跃升到了0.897,而且统计上高度显著(p值小于0.01)。更直观的数字是:Claude-Opus-4.6在AIME 2025上接近满分(99.8),配合MEMDREAMER在LVBench上得到85.1;Gemini-3.1-Pro在AIME 2025上得98.1,配合MEMDREAMER得90.7;GPT-4o在AIME 2025上只有61.9,配合MEMDREAMER只有68.5。规律相当清晰。
这个发现的意义在于:提升超长视频理解能力,以后可能不需要专门去训练"视频理解模型",而是只需要提升模型的通用逻辑推理能力就够了。推理能力的提升,能通过MEMDREAMER这样的框架自然地转化为视频理解能力的提升。这为整个领域开辟了一条新的优化方向。
八、局限性与展望
研究本身也存在一些值得关注的边界条件。目前整套记忆系统完全依赖文字描述,视频的视觉信息只有通过感知模型的文字转化才能进入记忆。这意味着如果某些细节不够容易用文字描述(比如微妙的面部表情、复杂的空间关系),可能在文字化过程中有所损失。不过这个局限性在目前的测试中影响不大,感知模型的文字描述能力已经足够强大,覆盖了绝大多数实际需要回答的问题类型。
此外,构建记忆的过程需要一定的计算资源,对于一部完整的长视频,需要调用感知模型对每个10分钟的片段进行处理,然后再进行层级聚合。这部分的效率在未来还有优化空间。
说到底,这项研究的核心贡献在于证明了一件事:让AI更好地理解超长视频,关键不在于给它更大的"胃"去消化原始画面,而在于给它一套好的"整理习惯"和"查阅方法"。感知和推理的分离,让AI的智力真正得以发挥。随着推理模型能力的持续提升,MEMDREAMER这样的框架有望将AI在超长视频理解上的表现持续推向新的高度。有兴趣进一步了解技术细节的读者,可以通过arXiv编号2606.07512找到完整论文。
**Q&A**
Q1:MEMDREAMER的"层级图谱记忆"具体存储的是什么内容?
A:MEMDREAMER的记忆分三层:最顶层是整个视频的全局概述(视频根节点),包含主题、关键人物和总体情节;中间层是若干"超级事件",相当于把视频按剧情阶段分章;最底层是具体的"宏观事件",每个宏观事件对应一段时间窗口内发生的事情。在最底层之下还有一张更细的子图,记录具体的人物、物体、地点和它们之间的因果、空间、行动关系。整个记忆是纯文字的,不保存任何视频帧。
Q2:MEMDREAMER的推理模型平均调用多少次工具就能答题?
A:根据论文的实验数据,即使系统最多允许调用12轮工具,推理模型平均只需要约3轮(具体是3.06轮)就会自行停下来给出答案,说明大多数问题不需要太多轮次的探索。只有少数复杂问题才会真正用到接近上限的轮次。每轮处理的文字量也稳定在6000个词左右。
Q3:MEMDREAMER和直接用大模型看视频相比,到底能提升多少准确率?
A:在LVBench这个最严苛的超长视频评测集上,使用Qwen3-VL直接看视频的准确率是63.6,换成MEMDREAMER框架提升到84.8,涨了21.2分。使用Gemini-3.1-Pro直接看视频是78.2,换成MEMDREAMER达到90.7,涨了12.5分。使用Gemini-2.5-Pro的提升幅度是8.7分(从72.0到80.7)。不同的底座模型提升幅度有所不同,但所有模型都获得了显著提升。





京公网安备 11011402013531号