![]()
这项由爱丁堡大学与圣安德鲁斯大学联合腾讯LIGHTSPEED团队完成的研究,以预印本形式发布于2026年4月(arXiv编号:2604.11544),有兴趣深入了解的读者可通过该编号查询完整论文。
假设你有一个记性极好的助手,他把所有事情都记得一清二楚——奥巴马是美国总统,特朗普是美国总统,拜登是美国总统。你问他"谁是现任美国总统",他却把三个答案一股脑儿全报给你,然后一脸茫然地说"这三条都在我的记录里"。这个荒诞的场景,正是当今大多数AI记忆系统面临的真实困境。研究者们把它称为"静态与动态的两难困境":同样的记忆系统,既要记住"奥巴马出生在夏威夷"这种永恒不变的事实,又要正确处理"谁是总统"这种随时间变化的信息——而现有系统对这两类信息一视同仁,结果两头都没做好。
为了彻底解决这个问题,研究团队创造了一套名为ROMEM的全新系统,其核心思路颇为巧妙:与其费尽心机地删除旧信息或者每次都叫来一个AI大模型来判断"这条信息过时了没有",不如借鉴物理学中的旋转原理,让时间本身变成一种几何上的力量——过时的事实会在数学空间里自然"转晕",而真实有效的事实则稳稳地"对准"查询方向。这套系统在多个基准测试上取得了当前最优成绩,在处理时间相关问题时的准确率比现有最好方法提升了两到三倍。
一、那个"把三位总统都当作现任总统"的经典难题
为了理解这个问题的根源,不妨把AI的记忆系统比作一个巨大的档案馆。现有的大多数系统会给每条信息贴上一个"日期标签",然后按时间先后排列。你想知道谁是现任总统,系统就找出最新的那条记录——这听起来很合理,对吧?
然而麻烦接踵而至。档案馆里同时存着"奥巴马出生于夏威夷"这条从未改变过的事实,以及"拜登是美国总统"这条最新信息。如果系统一律按时间新旧排序,那么"奥巴马出生于夏威夷"这条几十年前的旧档案就会被压在一堆无关紧要的新信息下面,难以被检索到——明明这是条永远有效的事实,却因为"年代久远"而遭到埋没。这就是所谓的静态与动态两难困境的第一个症状:一旦启用按时间排序,永久性知识就会被压制。
反过来,如果不按时间排序,那么三位总统的信息就会同时出现,让下游的AI大模型彻底困惑。斯坦福大学的研究者曾发现,当AI面对这种"真假混杂"的上下文时,它往往会给出错误或自相矛盾的答案——这一现象在学界被称为"迷失在中间",意思是有用的信息被无关内容淹没,模型不知道该听哪个。
现有系统应对这个困境的方式大致分为三种,而每一种都有明显缺陷。第一种是"破坏性覆写"——直接把旧信息删掉,换上新信息。问题在于,历史记录就此永久消失,你再也无法问"2009年的总统是谁"了。第二种是"AI仲裁"——每次存入新信息时,都调用一次AI大模型来判断"这条新信息是否意味着某条旧信息需要被更新或删除"。这个方法逻辑上说得通,但代价极高:如果你的记忆系统里存着几百万条事实,每存入一条新信息就要调用一次大模型,光是这个判断过程就会消耗巨大的计算资源和时间。第三种是"按时间排序"——也就是前面说的那种方法,会把旧而永久的事实埋没。
ROMEM的设计者们认为,这三种方案都是在用错误的思路解决问题。根本症结在于:这些系统把时间当作一个"标签"来处理,而时间本质上应该是一种"物理力量"。
二、时钟指针与几何旋转:用物理直觉解决记忆难题
研究团队从认知神经科学中找到了灵感。科学家们发现,哺乳动物的海马体(大脑中负责记忆的核心区域)并不是用离散的时间戳来记录事件的,而是用连续的几何轨迹来编码时间信息——就好像大脑里有一套内置的"时钟机制",时间的流逝对应着神经活动在空间中的连续运动。
ROMEM将这个生物学发现转化成了数学语言。每一个知识点,比如"(美国, 总统, 奥巴马)",都被表示为一个复数向量空间中的向量——你可以把它理解为一根有方向和长度的箭头。时间的流逝则对应着这根箭头在空间中的旋转,就像时钟的指针随着时间流转而不断转动。
具体来说,当你在2009年存入"奥巴马是美国总统"这条信息时,代表这个事实的"箭头"就被固定在一个特定的角度上——比如指向十二点方向。随着时间推移到2025年,如果你询问"现任美国总统是谁",系统会用2025年对应的旋转角度去"照射"所有相关的知识箭头。此时,"奥巴马是总统"这个箭头已经因为时间流逝而转到了三点钟方向,与查询方向不对齐,得分自然下降。而"特朗普是总统"的信息对应2025年的角度,与查询方向高度吻合,得分就高。这个过程不需要删除任何信息——两条信息都还在档案馆里好好的——只不过旧信息因为"转偏了"而自然排名靠后,新信息因为"对准了"而自然排名靠前。研究者把这个效应叫做"几何遮蔽":过时的事实被旋转到了错误的角度,被正确的事实在几何上自然压制。
更精妙的是,这个旋转机制可以进行历史查询。如果你明确问"2009年的美国总统是谁",系统就用2009年对应的旋转角度来检索,这时"奥巴马是总统"的箭头又重新指向了正确方向,而"特朗普是总统"的信息则被转偏了。整个档案馆从未删除任何内容,却能根据查询的时间点动态地"展现"出不同历史阶段的世界状态,就像一台时光机。
相比于此前的同类方法,这个设计还解决了两个技术上的老大难。其一,过去的一些方法将时间视为叠加在向量上的一个数值偏差(就像在箭头的长度上加减一个数字),这种"加法模型"有个致命缺陷:如果一个实体本身就非常"受欢迎"(在知识图谱中和很多其他实体都有关联),它的箭头天生就长,时间带来的惩罚对它影响不大,结果一些"过时但流行"的事实仍然能排名靠前。ROMEM使用的乘法旋转则不同:不管一个实体多么"受欢迎",只要它的箭头转偏了,得分就一定会下降,没有例外。其二,过去的旋转类方法(如ChronoR、TeRo等)需要为每一个具体的时间点单独学习一个向量表示,就好像为1月1日、1月2日、1月3日……各自准备一页手册。一旦遇到手册里没有收录的日期(比如某个具体的时刻),系统就完全不知道怎么处理。ROMEM则把时间定义为一个连续的数学函数,就像一个能处理任意角度的指南针,而不是只能处理整点刻度的闹钟——任何日期都能无缝处理,包括从未在训练数据中出现过的日期。
三、"语义速度阀":让系统自己学会哪些知识会变、哪些永恒不变
几何旋转解决了"时间冲突"的问题,但还有一个同样重要的问题没有解决:并非所有信息都应该以同样的速度旋转。"某人是总统"这类信息随着选举而快速变化,而"某人出生于某地"则是永久不变的事实。如果系统对两类信息施加同样的旋转速度,那么"奥巴马出生于夏威夷"这个永恒事实也会随着时间旋转偏移,最终难以被检索到——这正是我们最想避免的问题。
为此,研究团队设计了一个叫做"语义速度阀"(Semantic Speed Gate)的组件。这个组件的工作原理可以这样理解:给每一种"关系类型"配备一个旋转速度开关,数值在0到1之间。数值接近1,意味着这类关系变化很快,对应的知识会旋转得很猛;数值接近0,意味着这类关系几乎永恒不变,对应的知识几乎不旋转。
神奇之处在于,这个速度开关的数值不是人工设定的,而是系统通过阅读关系名称的文字表述自动学习出来的。研究团队让速度阀组件分析大量历史数据,从中学习"哪类关系在现实中经常发生变化"。学习完成后,当系统遇到"president of(担任……的总统)"这样的词语时,它通过理解这段文字的语义含义,自动判断这是一种变化频繁的关系,于是赋予它接近1的速度值;而遇到"born in(出生于)"时,系统理解这是一种极少改变的关系,于是赋予它接近0的速度值。
这个设计带来了一个极为实用的特性:零样本泛化。假设训练数据里出现了"married to(嫁给/娶了)"这个关系,系统学会了它相对稳定的性质(速度值低)。当系统在实际使用中遇到从未见过的关系"wedded to(与……结婚)"时,由于这两个短语在语义上非常相近,系统能够自动推断出"wedded to"也应该有较低的旋转速度,无需任何额外训练。同样,即使系统从未接触过金融领域的专业术语,它也能通过语义推断出"has quarterly revenue(具有季度营收)"与"held office(担任职务)"在语义上的相似性,从而正确地将前者判定为高波动性关系。
从实验结果来看,速度阀的判断相当准确。在已见过的政治事件类关系中,"Consult(磋商)"获得了0.87的高速度值,"Host a visit(接待访问)"获得了0.86,而"Cooperate militarily(军事合作)"和"Cooperate economically(经济合作)"则分别获得了0.09和0.16的低速度值——因为国家间的军事和经济合作关系通常比较稳定。在从未见过的关系中,"met with(会见)"被正确赋予了0.71的高速度值,"visited(访问)"为0.64,而"citizen of(是……公民)"和"species(是……物种)"则被正确赋予了0.17和0.22的低速度值。
速度阀对永久性知识的保护效果,在"DMR-MSC"这个专门测试静态记忆的基准中得到了验证——该测试中ROMEM的表现与不加任何时间处理的基础系统基本持平,说明时间旋转机制确实没有"误伤"那些不应该旋转的永久性事实。
四、分两步走的学习策略:先学"哪些变化快",再学"变化的节奏"
将速度阀和旋转机制合并在一起训练,会产生一个微妙的问题:如果同时学习"哪些关系变化快"和"时间旋转的具体节奏",这两件事会相互干扰,导致学习失败。具体来说,对时间旋转的训练需要把不同时间点的信息作为"负样本",告诉系统"这个时间点是错的"——但这对于永恒不变的关系来说是不公平的,因为对于"出生于"这类关系,任何时间点都是"正确的",强行把其他时间点当负样本会误导系统认为这类关系也需要快速旋转。
研究团队因此采用了一个巧妙的两阶段训练方案。第一阶段在正式训练开始之前单独完成:专门训练速度阀,只让它学习"哪些关系变化得快、哪些变化得慢"。训练数据来自ICEWS05-15数据集(一个包含2005年到2015年全球政治事件的大型数据库),训练方法是观察历史上同一个"主语+关系"组合下,宾语(也就是对象)有没有随时间改变。比如,"(美国, 总统)"这个组合下,宾语换过好几次(从克林顿到小布什到奥巴马),那么"总统"这个关系就被标记为高波动性;而"(奥巴马, 出生于)"下面的宾语从未改变,那么"出生于"就被标记为低波动性。速度阀通过大量这样的样本学习之后,就能理解不同关系的内在时间特性。这个阶段训练完成后,速度阀的参数就被固定下来,不再参与第二阶段的调整。
第二阶段才是主体训练:在速度阀参数冻结的前提下,学习知识点在向量空间中的具体位置(也就是"时间旋转的节奏")。这个阶段的损失函数包含三个部分:一是结构性损失,确保知识图谱中的关系结构被正确表达;二是时间对比损失,通过比较"正确时间点"和"错误时间点"来训练系统的时间判断能力;三是正则化损失,防止系统过度拟合训练数据。时间对比损失使用了一个"软性高斯目标",即系统不必死记正确时间的精确值,只需要知道"越接近正确时间越好",这大大提高了系统对未见时间点的泛化能力。
这种两阶段策略的成效在消融实验中得到了验证:如果将两个阶段合并为一步同时训练,系统要么出现"速度阀崩溃"(所有关系都被赋予相近的速度值,失去区分能力),要么出现永久性关系被错误地赋予高速度值的情况,导致静态知识随时间旋转而逐渐无法被检索。
五、在四个不同的考场上验证实力
研究团队用四个完全不同的测试场景来验证ROMEM的实际效果,分别对应四个层次的挑战。
第一个测试是时序知识图谱补全(ICEWS05-15),这是一个纯粹考察"知识图谱嵌入能力"的标准化学术测试,包含2005年到2015年间的大量国际政治事件三元组,系统需要根据历史数据预测遗漏的信息。ROMEM在这个测试中取得了72.6的MRR分数(MRR是一种综合衡量排名质量的指标,越高越好),显著超过了此前的最优方法3DG-TE(69.4),以及作为基础架构的ChronoR(68.4)。这一结果证明,功能性时间建模和语义速度阀不但没有损害原有的知识图谱表达能力,反而有所提升。
第二个测试是MultiTQ,这是一个专门考察复杂时序推理的问答基准,包含近五百道需要精确时间判断的问题,比如"谁在2009年之后成为某国的总统"或"某事件发生在哪一年"。这个测试最能体现ROMEM处理时间冲突的核心优势。结果相当惊人:在GPT-5-mini配置下,ROMEM取得了0.337的MRR,而现有最好的图谱记忆系统HippoRAG只有0.203;在下游答案准确率上,ROMEM达到了0.366,而HippoRAG只有0.112——也就是说,ROMEM的准确率是其三倍多。Mem0、Zep等其他系统的表现也与HippoRAG相近,远低于ROMEM。这个巨大的差距清晰地展示了几何遮蔽机制的效力:当多个时间段的矛盾信息同时存在时,ROMEM能够向下游AI大模型提供一个干净、无歧义的信息窗口,而其他系统则把所有矛盾信息混在一起传给大模型,导致大模型困惑不堪。
第三个测试是LoCoMo,这是一个考察长期对话记忆的综合性基准,既有时间相关问题,也有多跳推理、开放问答等各类型问题,更全面地反映真实使用场景。这个测试的关键在于:它不仅考验系统能否处理时间问题,还考验时间处理机制是否会"误伤"非时间性问题。ROMEM以0.857的综合平均分位居第一,不仅在时间推理子类(0.726)超越了基础HippoRAG(0.645),在单跳问题(0.768)和开放问答(0.904)上也有明显提升。Zep在多跳问题上略有优势,但综合评分低于ROMEM。这说明速度阀的"选择性旋转"机制工作正常:只对动态信息施加旋转,对静态信息保持不变,所以整体性能没有受到任何拖累。
第四个测试是FinTMMBench,这是一个金融领域的时序问答基准,考察系统在全新未知领域的零样本泛化能力。系统在此前从未接触过金融专业术语,却需要正确判断"季度营收""股价波动"等金融关系的时间波动性。ROMEM以0.728的MRR略微领先A-Mem(0.716)和基础HippoRAG(0.690)。这个结果验证了速度阀并非在死记硬背训练数据中的具体关系,而是真正学到了"关系是否易变"这一普适性语义规律,因此能够推广到完全陌生的领域。
六、系统架构的完整图景:从原始文本到最终答案
完整地了解ROMEM的工作流程,有助于理解它如何作为"即插即用"的模块与现有系统配合。整个流程分为四个阶段,环环相扣。
原始文本进入系统后,首先经过时序开放信息抽取(Temporal OpenIE)阶段,一个大模型会从文本中提取结构化的三元组,同时尽可能提取事件发生的时间(文本时间)并记录当前摄入的时间(观测时间)。这两个时间是分开记录的:前者用于几何旋转计算,后者用于基本的元数据管理。如果文本中没有明确的时间信息,文本时间就留空,系统会退化到纯语义检索模式。
抽取出的三元组以"只增不删"的方式存入知识图谱,同时也存入对应的文本段落索引。所有矛盾信息都共存于同一个图谱中,不做任何删除或标注。这是ROMEM的关键架构特性:它不试图在存储阶段解决冲突,而是把冲突解决推迟到查询阶段,用几何方法自然处理。
当查询到来时,系统首先用语义检索(基于密集向量相似度和个性化PageRank图遍历)找出一批候选事实,然后用时序知识图谱嵌入模型对这批候选事实进行重新排序。重排序时,系统会根据查询意图自动选择三种模式之一:如果查询明确指定了时间(比如"2009年的总统是谁"),就严格按照该时间点的几何对齐度排序;如果查询是在问时间本身(比如"某事件是何时发生的"),就把每条信息的存储时间作为排序参考;如果查询没有时间信息(比如"现任总统是谁"),就默认使用当前时间来排序,依靠几何遮蔽自然优先显示最新信息。最终排好序的候选事实被送入下游AI大模型,由大模型生成自然语言答案。
整个过程中,语义检索和时序重排序以乘法门控的方式结合,确保时序信号只能放大语义上已经相关的信息,而不会让"时间对得很准但内容完全无关"的信息意外闯入结果。
归根结底,ROMEM想解决的问题其实非常日常:当你的AI助手告诉你某件事,你怎么确定它说的是"当时有效"的信息,而不是已经过时的旧知识?现有系统基本靠"刷新日期"来应对这个问题,就像操作系统靠文件修改时间来管理文档——简单粗暴,但对"时效性本来就不一样"的不同类型信息来说,这个方法太过粗糙。ROMEM的贡献在于提出了一套更精细的机制:让知识本身"知道自己的有效期",并用数学方式把这种有效期编码进向量空间的几何结构里,从根本上告别了"要么删除历史、要么淹没在矛盾信息里"的两难困局。
对于普通用户而言,这意味着未来的AI助手在处理"最近的新闻"和"历史上的事情"时,能够更加准确地区分哪些信息是真正应该优先显示的,而不是一古脑儿把所有相关内容都丢过来,让用户自己去辨别。对于构建企业知识库或个人知识管理工具的开发者来说,ROMEM提供了一个现成的模块化方案,理论上可以直接插入任何现有的图谱记忆系统,无需重建整个架构。当然,这套系统目前仍处于学术研究阶段,与真实产品之间还有工程落地的距离,但它所提出的核心思路——用连续几何旋转代替离散时间标签——为整个领域提供了一个清晰可行的方向。对这项研究感兴趣的读者,可以通过arXiv编号2604.11544找到原始论文深入研读。
Q&A
Q1:ROMEM是什么,它和普通的AI记忆系统有什么区别?
A:ROMEM是一个专门处理"时间冲突"的知识图谱记忆模块。普通AI记忆系统把时间当作一个标签来管理信息,导致要么删除历史记录、要么把矛盾信息混在一起传给AI。ROMEM则把时间变成一种数学旋转操作,让过时的事实在向量空间里自然"转偏",从而被最新有效的信息自动压制,同时历史数据完整保留,支持查询任意时间点的信息。
Q2:语义速度阀是怎么知道哪些知识会变化、哪些永远不变的?
A:语义速度阀通过分析关系名称的文字表述来判断,它不依赖人工标注,而是从历史数据中自动学习。它观察同一类关系下对象实体是否随时间发生变化:如果"担任……总统"这类关系的对象经常换人,就被判定为高波动性;如果"出生于"这类关系的对象从未改变,就被判定为低波动性。学习完成后,面对从未见过的新关系,它能通过语义相似性推断波动性,实现零样本泛化。
Q3:ROMEM在时序问答测试中比其他系统强多少?
A:在MultiTQ这个专门考察复杂时序推理的基准测试中,ROMEM的下游答案准确率达到0.366,而当前最好的同类系统HippoRAG只有0.112,约为其三倍。MRR指标上ROMEM为0.337,HippoRAG为0.203。这个巨大差距来自于ROMEM能向下游AI大模型提供干净无歧义的时序上下文,而其他系统会把矛盾信息混在一起,导致AI大模型困惑和答题失误。





京公网安备 11011402013531号