今年刚 25 岁的 00 后浙大硕士生方继展,如果只听他的声音和表达内容,很容易让人以为这起码是一位博士生。他有着清晰的表达能力,更乐意针对 AI 主动发表原创见解。他也善于抓住时代趋势,在天津大学电气工程专业获得学士学位之后,考入了浙江大学人工智能专业,目前课余正在阿里集团淘天部门实习。
![]()
图 | 方继展(方继展)
走上了堪称是“最佳 AI 转型路径”之后,他也在读研期间和合作者针对 AI 记忆开展了一项研究,借此发明出一种名为 LightMem(轻量记忆)的技术。
在 LongMemeval 和 LoCoMo 这两个专门用于考察 AI 长期记忆能力的基准测试上,LightMem 回答问题的准确率全面超越之前的冠军模型,最高提升了 7% 以上,在某些数据集上甚至提升了将近 30%。在构建和更新记忆时所消耗的 tokens 数量来说,最低只有其他系统的一百分之一。
方继展告诉 DeepTech:“以我这样的 AI 研究生为例,当把我在同一个大模型上的月度聊天记录全部交由其它主流的 AI 记忆系统来存储和管理以前需要 1,000 美元,现在有了 LightMem 在同等条件之下只需要 10-30 美元。”同时,它所需要调用昂贵大型 AI 模型的次数,最多可以降至只有以前的 300 分之一,能让运营成本得到大幅下降,整体运行速度也能加快数倍到十余倍。
假如给大模型装上 LightMem,大模型将可以更好地理解长对话的上下文,给出更一致、更个性化的回答。如果在对话过程中只考虑用户能够直接感受到的在线延迟,LightMem 的优势将会更加恐怖,其所节省的计算量和请求次数还要更低。
![]()
(https://arxiv.org/pdf/2510.18866)
在学术层面,LightMem 是一个系统性研究并优化现有记忆系统效率问题的工作。此前的工作大多关注如何让记忆更有效,而方继展深入分析了这些系统带来的巨大开销和时延,并以提升效率为核心目标进行设计。
在工程层面,LightMem 在记忆系统中大规模应用“显式的 Token 压缩”技术。方继展发现,在自然语言交互中,信息冗余度极高,很多时候只需保留关键信息(关键词),大模型就足以理解完整语义。研究中,他使用了先进的文本压缩技术,显著减少了需要处理的数据量。
LightMem 还将记忆的“构建”与“更新”这两个阶段解耦。方继展把其中最耗时的记忆更新过程,从与用户的实时交互链路中剥离出来。用户无需等待更新完成,从而极大提升了交互的即时响应速度。
目前,方继展已经将 LightMem 代码完全开源。当前正在做的是让它兼容市面上所有主流模型(无论是 OpenAI、Google 的闭源模型,还是 Qwen、DeepSeek 等开源模型),做到真正的“即插即用”。
未来,你所经常使用的大模型真的有可能成为你的 AI 助理,它会记得你爱吃的口味和过敏的药物,真正能够成为你的数字知己。在医疗、法律和金融等领域,大模型将能记住历次的案例,提供连续性的分析。
方继展告诉 DeepTech,他更希望 LightMem 可被用于具身智能领域,因为具身场景对于 AI 记忆的需求更大更迫切,以家庭机器人为例:未来的家庭机器人不仅能够记住各种物品的摆放位置等事实层面的信息,还能记住每个家庭成员的习惯、偏好、观念等抽象层面的信息。
![]()
(https://arxiv.org/pdf/2510.18866)
以人类记忆的三层结构为灵感
众所周知,当前大模型的上下文窗口是有限的,就像电脑内存条一旦满了,旧有信息就会被挤出去。这导致大模型在开展长对话或处理复杂任务的时候,常常表现得不尽如人意。
LightMem 的核心思想来源于一个著名的人类记忆模型——阿特金森-希弗林模型。科学家发现,我们的大脑在处理信息的时候并不是一股脑全部塞进去,而是遵循一套精妙的流水线。
首先是感觉记忆,眼睛看到和耳朵听到的信息,会在这里短暂停留,就像照相机的咔嚓一闪一样,大脑会迅速过滤掉无关紧要的噪音。其次是短时记忆,经过筛选的信息进入这里会被我们注意到,就像我们默念一个刚听到的抖音号 ID,它只能在我们的大脑中保持十几秒到一分钟,必须进行反复背诵才能记住。
再次是长时记忆,一些重要的信息经过整理和巩固,最终会被存入大脑形成持久的记忆。睡眠则在其中扮演重要角色,当我们睡着的时候,大脑会像图书管理员一样,默默地将我们白天的经历像整理图书一样进行分类、归档,甚至能够把相关的知识连接起来。
但是,当前的 AI 记忆系统在这方面显得有些笨拙。它们会把所有对话内容包括大量的重复信息和无关信息都直接进行一股脑的处理,这就像使用最高性能的游戏电脑去处理一张简单的照片一样,不仅浪费资源而且延迟较高,并且会因为信息太多太杂而记不住、记不准确。这就导致这些 AI 记忆系统在对话进行中必须实时更新记忆库,而这则会拖慢整个聊天的速度。
方继展表示:“我做这个研究,主要是关注到了大模型传统训练范式中的两个关键瓶颈:训练成本和灾难性遗忘。”一方面,大模型训练需要巨大的算力,成本高昂。另一方面,当你想给模型注入新知识或新技能时,通过传统的微调改变其参数,往往会导致一个严重问题——模型会忘记之前学过的知识,这就是灾难性遗忘。因此,他关注到了大模型记忆这个方向,并开展了本次研究。
![]()
(https://arxiv.org/pdf/2510.18866)
LightMem:通过模仿人脑来提高效率
LightMem 通过模仿人类记忆的三层结构,打造了三个可以互相配合的轻量模块。
第一个轻量模块是感觉记忆过滤器(Light1)。在长对话中,有许多信息都是重复和无关紧要的,比如“你好”“谢谢”或者一些语气词等。面对这一问题,LightMem 使用一个名为 LLMLingua-2 的压缩模型来让大模型快速地扫描每轮对话。
LLMLingua-2 能够识别哪些是关键词、哪些是口水话,从而能够根据设定的压缩比例(如保留 60%),动态保留相应比例的最重要的词语,来将一大段话精简为一小段精华摘要。这就相当于在信息进入 AI 处理流水线之前,率先进行了一次高效的去噪和提纯,能够极大减少后续处理的工作量。
第二个轻量模块是短时记忆话题管家(Light2)。大模型里的对话往往是围绕不同话题展开的,因此光有压缩还远远不够。如果一股脑地把多个主题的内容混合在一起让 AI 总结,它很有可能会搞混。
而这里短时记忆话题管家(Light2)会针对压缩后的对话精华进行分析,利用注意力机制和语义相似度计算,来判断出话题切换的边界。比如,当你和 AI 的对话从“讨论周末吃什么”过渡到“推荐一部好电影”时,短时记忆话题管家(Light2)就会在这里划出一条分界线。
接着,属于同一个话题的多轮对话比如关于热门电影《疯狂动物城 2》的几个问题和几个回答,会被打包成为一个话题记忆包。只有当这个记忆包积累到一定大小时,才会调用一次大模型来为记忆包生成一个总的概述。以前每轮对话都要调用一次大模型,而使用本次方法将调用次数降低到只有原来的十分之一甚至百分之一。
第三个轻量模块是长时记忆与睡眠时间更新器,这也是 LightMem 最巧妙的创新。在进行对话的时候,新生成的话题记忆包会带着时间戳,直接存入长时记忆库之中,其好处在于只需做简单的添加,不需要做复杂的整理,因此能够保证聊天的实时性,并且没有任何卡顿。
对于大模型来说,记忆库的整理、去重、知识连接都是“重活”。而 LightMem 为大模型设置了睡眠时间也就是离线时间,让大模型专门在睡觉的时候干这些重活。这时,系统会悄悄地启动,就像人脑在睡眠时针对记忆库进行整理一样。
大模型会找出内容相似、但是存在新信息的记忆条目进行合并,在此期间还会针对重复内容进行删除,并能建立不同知识之间的连接。而且,由于各个记忆条目的更新任务是彼此独立的,因此系统可以同时处理多个任务,就像一家图书馆安排多位管理员整理不同书架一样,效率自然相对较高。
当然,赋予大模型以长期记忆也伴随着隐私、安全和伦理等挑战。方继展也在论文中表示,对于未来的应用必须建立严格的隐私保护措施和纠偏机制,确保 LightMem 能够产生善意和可信的用途。
下一步,方继展将从大模型推理的底层硬件原理上进行优化,例如对注意力计算中的 KV Cache 进行预计算和压缩,实现更极致的加速。同时,他还计划将这一设计范式拓展到更多行业和模态,例如代码生成、保险、以及图像、视频等多模态场景的压缩与记忆。还包括“具身智能”场景(如家庭机器人),让机器人能长期记住用户的习惯和偏好,避免在错误中循环。
方继展补充称,“AI 发展一直从人类智能中汲取灵感。我在研究记忆系统时,也深入学习了人类记忆的认知科学理论。我认为,人类的记忆不仅仅是记住事实(Facts),它至少包含三层:知识的抽象与积累、技能的习得、对世界底层规则的建立。”
知识的抽象与积累,是指将具体经验提炼成可迁移的知识;技能的习得,是指通过练习将操作内化为本能;对世界底层规则的建立,是指形成认知框架。反观当前的大模型记忆系统,大多还停留在最表层的事实记忆阶段(即记住我们说了什么和做了什么)。
方继展认为,未来的记忆系统,应该向人类学习,不仅要记“事”,更要能抽象出“知识”,并能将解决问题的“过程”转化为可复用的“技能”。人类的记忆之所以高效,正在于它是一种轻量的、抽象的系统,并非事无巨细地存储一切,而这正是大模型记忆系统应该借鉴的核心理念。
参考资料:
相关论文 https://arxiv.org/pdf/2510.18866
运营/排版:何晨龙





京公网安备 11011402013531号