Next Gen
欢迎来到“Next Gen”。人工智能的边界每日都在被拓展,一群富有远见卓识的青年学者正站在浪潮之巅。我们追踪并报道这些 AI 领域最具潜力的明日之星,展现他们在科研前沿的突破性工作,以及对未来智能时代的独到见解。他们是谁?他们如何思考?他们又将把 AI 带向何方?与我们一同发现那些正在定义未来的 AI 新生代。
今年 24 岁的王禹来自安徽芜湖,他本科毕业于中国科学技术大少年班,目前在美国加利福尼亚大学圣迭戈分校(UCSD)三年级博士在读,并曾在 IBM、亚马逊等公司实习。
图丨王禹(王禹)
近期,他发布了多智能体个人助理系统 MIRIX,这是一款创新的记忆系统产品。MIRIX 具备处理高分辨率的屏幕截图的能力,这是现有记忆系统无法做到的,其适用于 AI 助理公司、Agent 框架、垂直 SaaS、自动化办公系统、AI 客服、代码智能体等多个领域。目前,王禹正在推进公司的创立筹备工作。
曾经每天只睡 6 小时,只为“柳暗花明”的时刻
截至目前,王禹已在机器学习领域累计发表 20 余篇学术论文,其中 11 篇为第一作者或共同第一作者成果。其研究呈现出明显的聚焦性和延续性,特别是在近两年的 5 篇第一作者论文中,他系统性地探索了“大模型记忆机制”这一前沿方向,其创新性工作在不增加 GPU 内存开销的前提下,显著提升了大规模语言模型的记忆能力。
王禹选择这一研究方向源于对 ChatGPT 等大语言模型的实际使用观察。他在日常使用中发现两个显著痛点:
首先,模型存在会话记忆的时效性缺陷——当日对话内容在次日即完全丢失,这对需要连续数日讨论的项目造成严重阻碍,用户不得不反复复述项目背景信息;
其次,模型在长程对话中会出现性能衰减现象,随着上下文累积,后续应答质量逐步降低。这种局限性迫使用户频繁开启新对话,而新对话又完全无法继承历史会话的认知状态,导致多轮对话间形成记忆断层。
这些实践中的发现促使王禹系统性地探索机器记忆的实现路径。他向 DeepTech 解释说道:“构建真正具备社会适应性的智能体,记忆系统是不可或缺的底层能力。这种记忆不仅要实现事件记录的存储功能,更需要发展出类似生物体的自主记忆机制。从技术演进角度看,记忆模块很可能是实现通用人工智能(AGI)或构建未来数字人的关键架构要素。
回顾科研历程,王禹用“坚韧、自律、不达目的誓不罢休”来形容自己的特质。这种执着和热爱的特质早在本科阶段便已显现:大二时,他的第一个项目是做推荐系统的去噪。但实际上,项目进展并不顺利,他曾连续一个多月没有任何进展。转折点出现在一次其师兄的项目分享会,受到启发的他回到宿舍连续两天高强度推导公式,并大量验证实验,最终完成了项目。
这段经历成为他投身机器学习研究的起点,尤其是当他发现模型在下棋方面竟然能够战胜自己时,那种震撼让他至今难忘。此后他的研究兴趣从强化学习逐步拓展到推荐系统,再延伸到当前专注的自然语言处理领域。
在科研方法论方面,王禹形成了独特的工作节奏。本科期间他曾创下同时推进 4 个科研项目、日均仅睡 6 小时的记录。面对高强度工作压力,他发展出一套有效的压力管理方式:通过健身房力量训练、游泳、足球等体育运动,以及与朋友聚餐等社交活动来保持身心平衡。
“项目研究经历让我深刻体会到,科研很多时候都是处于高压、‘山重水复疑无路’的状态,但一旦出现‘柳暗花明’的时刻,就会觉得之前的努力都是有意义的,这也是科学研究的魅力所在。”王禹回忆道。
王禹的学术成长得益于两位重要导师的指导。本科阶段,中国科学技术大学何向南教授安排博后辛鑫专门指导,并建立每两周一次的定期汇报机制,这种“手把手”的科研训练极大地带领了科研“新手”快速成长。
攻读博士学位期间,导师朱莉安·麦考利(Julian McAuley)教授给予的学术自由则让他能够深耕感兴趣的研究方向,同时灵活安排研究计划以兼顾学业与个人生活,特别是维系与国内女友的异地恋情。这种张弛有度的培养模式,既保证了系统的科研训练,又保留了学术创新的自主空间。
2022 年 ChatGPT 系列模型的横空出世成为王禹科研生涯的关键节点。此前他长期困扰于人工智能技术在实际应用中的精度瓶颈,对技术商业化方向感到迷茫。GPT 展现的强大能力不仅解答了他的技术困惑,更清晰地指明了人工智能产品的落地路径,直接启发了他后续的创业规划。
如何让 AI 拥有类人记忆?
人们希望大模型或机器人可以具备类似人类记忆,那么人类记忆具备怎样的特质呢?在探索这个方向时,王禹的此前研究提供了重要启示。
在他作为一作发表在Transactions on Machine Learning Research的论文《迈向生命周期认知系统》(Towards LifeSpan Cognitive Systems)中提到 [1],从记忆应用的初始阶段来看,要做一个能够“终身对话”的系统需要具备两个关键能力:抽象与经验合并(Abstraction & Experience Merging)以及长期记忆保持(Long-Term Retention)。
首先,系统不应像传统存储系统那样机械地记录原始数据,而是需要像人类记忆一样,能够提取核心信息并建立关联。
例如,多次接触“某人考试失利”相关信息后,系统应能整合这些经验,推导出“考试难度”等更高层次的结论——这种动态的知识整合能力,正是记忆系统区别于普通 RAG(Retrieval-Augmented Generation)或 RUG(Retrieval-Useful Generation)系统的关键特征。
其次,系统必须长期保留这些抽象后的知识,既包括常识性记忆,也需支持精准细节的调取,这是实现终身认知功能的基础。
图丨记忆智能体应该具备的四种互补能力(arXiv)
在最近发表在arXiv的论文《通过增量式多轮交互评估大语言模型智能体的记忆能力》(evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions)[2] 中,王禹进一步细化了记忆智能体应具备的四大能力:精准回忆(Accurate Retrieval)、传导学习(Test-Time Learning)、长距离理解(Long-Range Understanding)和冲突解决(Conflict Resolution)
王禹指出,这四项能力覆盖了实际应用中的主要需求,也是人类记忆系统的核心功能。这些研究不仅揭示了大模型记忆机制的优化方向,也为 MIRIX 等系统的开发和设计奠定了理论基础。
MIRIX:准确率提升 35%,存储需求降 99.9%
MIRIX 作为新一代多智能体记忆系统,通过截屏理解用户,能压缩并提取有效信息。
其技术架构和功能设计在近期发表在arXiv的论文《MIRIX:面向基于大语言模型的智能体的多智能体记忆系统》(MIRIX: Multi-Agent Memory System for LLM-based Agents)中得到了系统阐述 [3]。
图丨相关论文(arXiv)
该系统突破了传统记忆系统简单划分短期/长期记忆的二元模式,创新性地构建了六个模块协同的树状记忆架构。每个记忆模块不仅实现独立功能,还通过属性化组织方式(包括总结、嵌入、细节、关键词、执行者等元数据标签)实现信息的结构化存储与关联。
“我们的系统不仅能看到当前屏幕,还能通过六个模块管理记忆,由专门的代理进行操作,从而记住之前的内容。”王禹说。
图丨 MIRIX 的六个记忆模块,每个提供专门的功能(arXiv)
具体来说:
核心记忆(Core Memory)模块:记录用户的基本信息和偏好,比如用户的名字、喜好等。这些信息对于与用户的交流至关重要,需要一直存储在系统提示(system prompt)和上下文(context)中。
情景记忆(Episodic Memory)模块:记录用户生活中发生的具体事件,比如之前开过的会议、打过的电话等,这些记忆通常与时间相关。
语义记忆(Semantic Memory)模块:存储与时间无关的信息,例如“《哈利·波特》是 J.K. 罗琳(J.K. Rowling)写的”这样的事实性陈述。这些信息是长期存在的,还包括一些概念、人物等。
(arXiv)
程序记忆(Procedural Memory)模块:包含各种逐步指南(step-by-step guides)和工作流程(workflows),比如如何在 GitHub 上合并分支、如何在 Minecraft 中调用服务等。
资源记忆(Resource Memory)模块:用于存储文件和文档,比如查看一个文档、合同等。这些内容不适合存储在前面四个模块中,而是专门存储在资源记忆中。
知识库(Knowledge Vault)模块:存储敏感信息,如地址、电话号码、凭证、社会安全号码或身份证号码等。这些信息在需要时会被使用,例如填写表格时需要提供身份证号码。
需要了解的是,MIRIX 重视数据安全方面的保护,其所有的信息都存储在本地的一个文件夹里(SQLite 数据库),所有的处理也都在本地完成。而涉及到上述比较敏感的信息时,MIRIX 会将其单独存放,并且在需要使用时会征求用户的同意。据介绍,只有当数据被发送至 API 模型时会被 API 模型看到。
值得关注的是,论文中提到,MIRIX 中的反思代理(reflection agent),点击该功能后会调用后端代理来组织记忆。
例如,John 最近在为期末考试做准备,过了几天又说他很累,还没睡好。MIRIX 会把这些信息连接起来,形成一个新的记忆,记录在其记忆系统中,比如“John 最近可能正在经历考试焦虑,智能体在对话中应给予更多支持”。
图丨MIRIX 对话界面(王禹)
研究团队在两个具有挑战性的场景中验证了 MIRIX。首先,在多模态基准测试 ScreenshotVQA(包含近 20,000 张高分辨率计算机截图)上,需要深度上下文理解,MIRIX 的准确率比 RAG 基线高出 35%,同时将存储需求减少了 99.9%。
(arXiv)
其次,在单模态文本输入的长篇对话基准测试 LOCOMO 上,MIRIX 达到了超 85% 的最新性能,远远超过了现有的基线。
图丨LOCOMO 数据集中各题型不同记忆系统评分(arXiv)
MIRIX 的系统应用场景覆盖范围广泛,既可以应用于 C 端,也可以应用于 B 端。
对于 C 端,目前王禹与团队已开发了测试版 APP,比如可以让它告诉用户“昨天做了什么”,或者帮助写一封求职信。此外,MIRIX 还可以和用户一起追剧,并讨论相关剧情。如果用户同时在处理多个工作项目,它还可以帮助梳理每个项目的具体进程。
对于 B 端,团队计划与 AI 眼镜厂商、AI 平板厂商、AI 玩具厂商或者小型机器人厂商合作,希望为其产品增加长期记忆功能,让产品能够记住用户,成为个人助手,有望真正实现“你的生活记忆,从此不会丢失”。
此外,MIRIX 还有望将各种场景的记忆结合中,但可能需要进行一些适配和专门的调整。王禹进一步说道:“未来,可穿戴设备的个人 Agent 与电脑、手机的个人 Agent 可以是一体化的,它们都能够访问用户的信息,并且共享内存,我觉得这会是一个非常有趣的场景。”
谈及科研和开发产品方面,王禹认为,最重要的是需要耐心打磨。“用户对于半成品可能只是浅尝辄止,不会长期使用。我们希望打造能够留住用户的产品。科研也是如此,只有提供最好的技术内容,才会有人关注。”
目前,王禹正在与各投资人洽谈中,希望在不久后在美国成立公司并持续推动 MIRIX 等产品的发展。当然,他也不排除未来机会合适将业务拓展到中国。
参考资料:
1.https: //openreview. net/ forum? id= LZ9FmeFeLV
2.https://arxiv.org/abs/2507.05257v1
3.https://arxiv.org/abs/2507.07957
运营/排版:何晨龙