![]()
刚刚,谷歌发布了一项名为“嵌套学习”(Nested Learning)的全新机器学习范式,它将模型视为嵌套优化问题,从而增强对长上下文的处理能力。基于嵌套学习的概念验证模型 Hope 在语言建模方面展现出更优异的性能,谷歌的野心是缓解乃至彻底解决LLM遗忘问题,实现类似人脑的持续学习能力
相关论文《Nested Learning: The Illusion of Deep Learning Architectures》已在NeurIPS 2025上发表
![]()
在过去十年,机器学习取得了巨大进步,但LLM的成功之下,一些根本性挑战依然存在,尤其是在持续学习方面。
人脑是持续学习的黄金标准,其通过神经可塑性不断调整自身结构以适应新体验。相比之下,当前LLM的知识局限于其输入窗口的即时上下文或预训练期间学到的静态信息。
最直接的解决方法——用新数据持续更新模型参数,往往会导致“灾难性遗忘”(Catastrophic Forgetting, CF)。传统上,研究人员通过调整架构或优化规则来对抗CF,但长期以来,模型架构与优化算法被视为两个独立部分,阻碍了真正统一高效的学习系统诞生。
谷歌提出的“嵌套学习”则打破了这一壁垒。
什么是嵌套学习?
嵌套学习范式提出,一个复杂的ML模型并非单一的连续过程,而是一个由相互关联、多层次的学习问题组成的系统,这些问题被嵌套或并行地同时优化。
该理论认为,模型架构和训练规则(即优化算法)本质上是同一概念,它们只是处于不同“层级”的优化问题,每个层级都有其自身的信息流(“上下文流”)和更新速率
通过识别这种内在结构,“嵌套学习”为设计更强大的AI提供了一个全新的、此前不可见的维度,允许构建具有更深计算深度的学习组件,从而最终解决灾难性遗忘等问题。
为了阐释这一范式,研究人员以“联想记忆”(associative memory)为例。
他们指出,训练过程本身(尤其是反向传播)就可以被建模为一个联想记忆。模型学习将给定数据点映射到其局部误差值,该误差值衡量了数据点的“意外”程度。同样,像Transformer中的注意力机制等关键架构组件,也可以被形式化为学习序列中Token之间映射关系的简单联想记忆模块。
通过为每个组件定义一个“更新频率”,即权重调整的频率,这些相互关联的优化问题就可以被排列成不同的“层级”。这个有序集合构成了嵌套学习范式的心脏。
研究人员表示,人脑中统一且可复用的结构以及多时间尺度的更新,是人类持续学习的关键。嵌套学习允许模型的每个组件进行多时间尺度更新,并证明了Transformer等知名架构实际上是具有不同更新频率的线性层。
嵌套学习的应用
基于“嵌套学习”的视角,可以直接获得改进现有算法和架构的原则性方法:
1. 深度优化器 (Deep optimizers)
由于嵌套学习将优化器(如动量优化器)也视为联想记忆模块,因此可以将联想记忆的原理应用于优化器设计。研究人员观察到,许多标准优化器依赖于简单的点积相似度,其更新并未考虑不同数据样本之间的关联。通过将优化器的底层目标更改为更标准的损失度量,例如L2回归损失,他们为动量等核心概念推导出了新的公式,使其对不完美数据更具鲁棒性。
2. 连续谱记忆系统 (Continuum memory systems, CMS)
在标准Transformer中,序列模型充当短期记忆,保存即时上下文;前馈网络则充当长期记忆,存储预训练知识。嵌套学习将这一概念扩展为一个“连续谱记忆系统”,其中记忆被视为由一系列模块组成的光谱,每个模块都以特定的不同频率进行更新,为持续学习创造了更丰富、更有效的记忆系统。
Hope:一个自修改的验证架构
作为概念验证,研究团队利用嵌套学习原理设计了一款名为“Hope”的自修改架构。
Hope是Titans架构的一个变体。Titans架构是一种长期记忆模块,能根据记忆的“意外”程度确定其优先级,但它只有两个参数更新层级。
而Hope是一个自修改的循环架构,它能够利用无限层级的上下文学习,并通过CMS模块增强,以扩展到更大的上下文窗口。它本质上可以通过一个自引用过程来优化自身的记忆,从而创造出一个具有无限循环学习层级的架构。
实验结果
在语言建模、长上下文推理、持续学习和知识整合等一系列任务上的实验证明了嵌套学习、连续谱记忆系统和自修改Titans架构的有效性。
通用性能:在一系列公开的语言建模和常识推理任务上,Hope架构展现出比现代循环模型(如Titans、Samba)和标准Transformer更低的困惑度和更高的准确率
![]()
长上下文处理:在“大海捞针”(Needle-In-Haystack, NIAH)下游任务中,Hope展示了卓越的记忆管理能力,证明了CMS是处理扩展信息序列的一种更高效的方式,其性能在不同难度的任务上均优于Titans、TTT和Mamba2
![]()
结论
谷歌研究团队认为,“嵌套学习”范式代表了对深度学习理解的一次飞跃。通过将架构和优化视为一个统一、连贯的嵌套优化问题系统,它为模型设计解锁了一个新的维度
像Hope这样的模型证明,采用原则性方法统一这些元素,可以带来表达能力更强、功能更强大、效率更高的学习算法。
团队相信,“嵌套学习”为弥合当前LLM的遗忘特性与人脑卓越的持续学习能力之间的鸿沟,提供了一个坚实的基础,并期待研究社区能共同探索这一新维度,以构建下一代自我完善的AI
参考:
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/





京公网安备 11011402013531号