当前,大语言模型(LLM)在医疗、金融、法律等专业领域,常因缺乏深度知识而表现较差,如何让 LLM 在不同特定领域中发挥最佳性能,仍是一大挑战。
现有主流方案包括领域自适应预训练(DAPT)和检索增强生成(RAG)。然而,DAPT需要进行耗时的全参数训练,且易产生灾难性遗忘,难以让多个模型在同一领域中高效适配;而 RAG 也因昂贵的 kNN 搜索和更长的上下文,推理延迟大大增加。
而且,由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾,开发既能跨模型适应,又能在部署时保持计算效率的解决方案,仍为空白。
为此,来自上海交通大学和上海AI Lab的研究团队提出了一个“即插即用”的预训练记忆模块——“记忆解码器”(Memory Decoder),无需修改原模型参数,即可适配不同尺寸模型,实现 LLM 的高效领域适应。
论文链接:https://arxiv.org/abs/2508.09874v1
Memory Decoder 的核心创新在于其“即插即用”的特性。经过训练后,单个Memory Decoder可无缝集成到任何使用相同 tokenizer 的 LLM 中,而无需进行模型特定调整或额外训练。这种设计实现了跨不同模型架构的即时部署,显著降低了部署成本。
实验结果表明,Memory Decoder 能够有效地将各种 Qwen 和 Llama 模型适应于生物医学、金融和法律专业领域,困惑度平均降低 6.17%。
架构
在预训练阶段,Memory Decoder 通过分布对齐损失函数,学习如何将其输出分布与非参数检索器生成的分布进行对齐。
在推理阶段,Memory Decoder 与基础语言模型并行处理输入数据,通过插值其分布生成领域增强型预测结果,且无需额外的检索开销。
图|Memory Decoder 架构概览,在预训练阶段学习模仿非参数检索分布,在推理阶段无缝集成任何兼容的语言模型,从而消除数据存储维护和 kNN 搜索带来的计算开销。
与传统基于单标签目标的语言建模方法不同,kNN 分布通过捕捉领域内合理延续的多样性,提供更丰富的监督信号。大量实验验证,混合目标函数能获得最佳性能。这一研究方法的核心在于引入分布对齐损失函数,该函数通过最小化 Memory Decoder 输出分布与缓存 kNN 分布之间的 KL 散度来实现。
图|跨领域适应方法的推理延迟比较
经过预训练的 Memory Decoder 能够通过简单的插值操作,将任何语言模型与兼容的 tokenizer 适配到目标领域。
相比其他领域自适应技术,Memory Decoder 仅需对相对较小的 transformer 解码器进行单次前向传播,在推理效率上实现了显著提升。Memory Decoder 与 LLM 之间的进程通信开销可通过延长推理时间来分摊,而 kNN 搜索则会随数据量线性增长。这种计算优势结合 Memory Decoder 的“模型无关”设计,使其在对性能和效率都至关重要的生产环境中具有独特价值。
性能评估
研究团队评估了 Memory Decoder 在 6 种互补场景下的性能:
在 WikiText-103 数据集上的语言建模,验证其在不同规模 GPT-2 模型中的适用性;
下游任务测试,验证领域适应过程中通用能力的保留效果;
跨模型适应,展示单个 Memory Decoder 在 Qwen 模型(0.5B-72B)带来的性能提升;
跨词汇适应,证明不同 tokenizer 间的高效迁移能力;
知识密集型问答任务,证明 Memory Decoder 在保持推理能力的同时也可以增强事实回忆功能——这是传统检索方法的关键局限;
针对特定领域的下游任务,验证其在 13 项真实场景基准测试中对上下文学习能力的保持。
具体如下:
1.WikiText-103中的语言建模
表|GPT2 模型在 WikiText-103 数据集上的域适应方法的困惑度对比
上表展示了 Memory Decoder在所有 GPT2 模型尺寸上的有效性。仅需 1.24 亿参数的单个 Memory Decoder,就能显著提升整个 GPT2 系列模型的性能,展现了其即插即用的优势——无论基础模型规模如何。
即使在应用于更大规模的模型时,尽管 DAPT 由于采用全模型更新而具有固有优势,Memory Decoder 依然保持着强劲的竞争力,且在不修改任何原始参数的情况下,能够持续超越其他所有参数优化方法。
这些结果证明,小参数解码器既能有效发挥非参数检索的优势,又能大幅降低计算开销。
2.下游性能
表|在情感分析、文本蕴含和文本分类等 9 种不同 NLP 任务上的性能表现
如上表,在零样本评估环境中,Memory Decoder 在增强领域适应的同时保持通用语言功能的能力。与在多个任务中出现灾难性遗忘的 DAPT 不同,Memory Decoder 在所有评估任务中,均能保持或提升性能。
这一方法在全部 9 项任务中均取得最高平均分。不仅超越了基础模型、kNN-LM 和 LoRA,还在 CB、RTE 等文本蕴含任务中展现出独特优势。
这些结果验证了这一架构的核心优势:在保持原始模型参数完整的同时,Memory Decoder 通过融入领域知识,实现了无需牺牲通用能力的领域适应。
3.跨模型适应
表|三个专业领域的跨模型适应结果
上表展示出 Memory Decoder 在不同模型规模和架构上的即插即用能力。单个Memory Decoder (0.5B 参数)在 Qwen2 和 Qwen2.5 系列的所有模型中均能持续提升性能。单一预训练记忆组件可提升共享同一 tokenizer 的多个模型,实现高效的领域适应扩展,使得不同尺寸模型都能持续超越现有方法。
4.跨词汇适应
表|跨模型知识迁移效果显著
上表展示了 Memory Decoder 在不同 tokenizer 和模型架构下的泛化能力。通过仅重新初始化基于 Qwen2.5 训练的 Memory Decoder 的嵌入层和语言模型头,团队成功将其适配到 Llama 模型家族,且仅需原训练预算的 10%。这种高效的迁移能力使所有 Llama 变体都实现了性能提升。
对于 Llama3-8B,Memory Decoder 在生物医学和金融领域降低了约 50% 困惑度。类似的改进也延伸至 Llama3.1 和 Llama3.2,他们的方法在生物医学和金融领域始终优于 LoRA,但在法律文本领域仍有改进空间。
这些发现表明,Memory Decoder 的通用性超越了单一 tokenizer 家族,证明了从单一架构中习得的领域知识可以高效迁移至其他架构,且仅需要少量额外训练。这一能力扩展了我们方法的实际应用价值,为在多样化的模型生态系统中实现领域适应提供了简化的路径。
5.知识密集型推理任务
表|知识密集型问答任务的性能表现
虽然 RAG 方法在提升事实记忆方面表现出色,但在同时需要知识检索与复杂推理的任务中却常常表现较差。先前研究表明,尽管 kNN-LM 能从相关维基百科语料库中检索信息,但在知识密集型问答任务中反而可能影响性能表现。
如上表所示,Memory Decoder 在两项基准测试中成功增强了模型获取事实性知识的能力,同时保持了推理能力,解决了传统检索方法的根本性局限。
实验结果表明,通过学习内化检索模式而非依赖显式推理,Memory Decoder 在保持处理复杂多跳问题所需组合推理能力的同时,还能充分利用扩展后的知识访问优势。
不足
以上结果证明,Memory Decoder 保留了检索方法的记忆能力,又兼具参数化方法的高效性和泛化优势。
Memory Decoder 的多功能性和高效性,使得它能无缝增强任何共享相同 tokenizer 的模型,且只需少量额外训练即可适配不同 tokenizer 和架构的模型。这种能力使得跨模型家族的高效领域适应成为可能,大幅减少了专用模型开发通常所需的资源。
可以说,Memory Decoder开创了领域自适应的新范式,并从根本上重新定义了如何为特定领域定制语言模型。通过预训练记忆组件将领域专业知识与模型架构解耦,这一方法构建了一个更模块化、高效且易于访问的框架,从而能够提升语言模型在专业领域的表现。
然而,Memory Decoder也并非完美,依然存在一些局限性。
例如,在预训练阶段,Memory Decoder 需要通过 KV 数据存储进行搜索,以获取 kNN 分布作为训练信号,这会产生计算开销。尽管该成本仅在每个领域中产生一次,且可分摊至所有适应模型,但这仍是整个流程中的瓶颈。
此外,尽管跨 tokenizer 适应相比从头训练所需参数更新较少,但仍需进行部分参数调整以对齐嵌入空间,阻碍了真正「零样本跨架构迁移」的实现。
作者:小瑜
如需转载或投稿,请直接在公众号内留言