当前位置：首页 » 资讯 » 新科技 » 正文

不调参、不费力！上海交大&上海AI Lab推出“记忆解码器”，任意LLM无缝自适应

IP属地中国·北京 编辑：唐云泽学术头条 时间：2025-08-26 16:25:36

当前，大语言模型（LLM）在医疗、金融、法律等专业领域，常因缺乏深度知识而表现较差，如何让 LLM 在不同特定领域中发挥最佳性能，仍是一大挑战。
现有主流方案包括领域自适应预训练（DAPT）和检索增强生成（RAG）。然而，DAPT需要进行耗时的全参数训练，且易产生灾难性遗忘，难以让多个模型在同一领域中高效适配；而 RAG 也因昂贵的 kNN 搜索和更长的上下文，推理延迟大大增加。
而且，由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾，开发既能跨模型适应，又能在部署时保持计算效率的解决方案，仍为空白。
为此，来自上海交通大学和上海AI Lab的研究团队提出了一个“即插即用”的预训练记忆模块——“记忆解码器”（Memory Decoder），无需修改原模型参数，即可适配不同尺寸模型，实现 LLM 的高效领域适应。

论文链接：https://arxiv.org/abs/2508.09874v1
Memory Decoder 的核心创新在于其“即插即用”的特性。经过训练后，单个Memory Decoder可无缝集成到任何使用相同 tokenizer 的 LLM 中，而无需进行模型特定调整或额外训练。这种设计实现了跨不同模型架构的即时部署，显著降低了部署成本。
实验结果表明，Memory Decoder 能够有效地将各种 Qwen 和 Llama 模型适应于生物医学、金融和法律专业领域，困惑度平均降低 6.17%。
架构
在预训练阶段，Memory Decoder 通过分布对齐损失函数，学习如何将其输出分布与非参数检索器生成的分布进行对齐。
在推理阶段，Memory Decoder 与基础语言模型并行处理输入数据，通过插值其分布生成领域增强型预测结果，且无需额外的检索开销。

图｜Memory Decoder 架构概览，在预训练阶段学习模仿非参数检索分布，在推理阶段无缝集成任何兼容的语言模型，从而消除数据存储维护和 kNN 搜索带来的计算开销。
与传统基于单标签目标的语言建模方法不同，kNN 分布通过捕捉领域内合理延续的多样性，提供更丰富的监督信号。大量实验验证，混合目标函数能获得最佳性能。这一研究方法的核心在于引入分布对齐损失函数，该函数通过最小化 Memory Decoder 输出分布与缓存 kNN 分布之间的 KL 散度来实现。

图｜跨领域适应方法的推理延迟比较
经过预训练的 Memory Decoder 能够通过简单的插值操作，将任何语言模型与兼容的 tokenizer 适配到目标领域。
相比其他领域自适应技术，Memory Decoder 仅需对相对较小的 transformer 解码器进行单次前向传播，在推理效率上实现了显著提升。Memory Decoder 与 LLM 之间的进程通信开销可通过延长推理时间来分摊，而 kNN 搜索则会随数据量线性增长。这种计算优势结合 Memory Decoder 的“模型无关”设计，使其在对性能和效率都至关重要的生产环境中具有独特价值。
性能评估
研究团队评估了 Memory Decoder 在 6 种互补场景下的性能：
在 WikiText-103 数据集上的语言建模，验证其在不同规模 GPT-2 模型中的适用性；
下游任务测试，验证领域适应过程中通用能力的保留效果；
跨模型适应，展示单个 Memory Decoder 在 Qwen 模型（0.5B-72B）带来的性能提升；
跨词汇适应，证明不同 tokenizer 间的高效迁移能力；
知识密集型问答任务，证明 Memory Decoder 在保持推理能力的同时也可以增强事实回忆功能——这是传统检索方法的关键局限；
针对特定领域的下游任务，验证其在 13 项真实场景基准测试中对上下文学习能力的保持。
具体如下：
1.WikiText-103中的语言建模

表｜GPT2 模型在 WikiText-103 数据集上的域适应方法的困惑度对比
上表展示了 Memory Decoder在所有 GPT2 模型尺寸上的有效性。仅需 1.24 亿参数的单个 Memory Decoder，就能显著提升整个 GPT2 系列模型的性能，展现了其即插即用的优势——无论基础模型规模如何。
即使在应用于更大规模的模型时，尽管 DAPT 由于采用全模型更新而具有固有优势，Memory Decoder 依然保持着强劲的竞争力，且在不修改任何原始参数的情况下，能够持续超越其他所有参数优化方法。
这些结果证明，小参数解码器既能有效发挥非参数检索的优势，又能大幅降低计算开销。
2.下游性能

表｜在情感分析、文本蕴含和文本分类等 9 种不同 NLP 任务上的性能表现
如上表，在零样本评估环境中，Memory Decoder 在增强领域适应的同时保持通用语言功能的能力。与在多个任务中出现灾难性遗忘的 DAPT 不同，Memory Decoder 在所有评估任务中，均能保持或提升性能。
这一方法在全部 9 项任务中均取得最高平均分。不仅超越了基础模型、kNN-LM 和 LoRA，还在 CB、RTE 等文本蕴含任务中展现出独特优势。
这些结果验证了这一架构的核心优势：在保持原始模型参数完整的同时，Memory Decoder 通过融入领域知识，实现了无需牺牲通用能力的领域适应。
3.跨模型适应

表｜三个专业领域的跨模型适应结果
上表展示出 Memory Decoder 在不同模型规模和架构上的即插即用能力。单个Memory Decoder (0.5B 参数）在 Qwen2 和 Qwen2.5 系列的所有模型中均能持续提升性能。单一预训练记忆组件可提升共享同一 tokenizer 的多个模型，实现高效的领域适应扩展，使得不同尺寸模型都能持续超越现有方法。
4.跨词汇适应

表｜跨模型知识迁移效果显著
上表展示了 Memory Decoder 在不同 tokenizer 和模型架构下的泛化能力。通过仅重新初始化基于 Qwen2.5 训练的 Memory Decoder 的嵌入层和语言模型头，团队成功将其适配到 Llama 模型家族，且仅需原训练预算的 10%。这种高效的迁移能力使所有 Llama 变体都实现了性能提升。
对于 Llama3-8B，Memory Decoder 在生物医学和金融领域降低了约 50% 困惑度。类似的改进也延伸至 Llama3.1 和 Llama3.2，他们的方法在生物医学和金融领域始终优于 LoRA，但在法律文本领域仍有改进空间。
这些发现表明，Memory Decoder 的通用性超越了单一 tokenizer 家族，证明了从单一架构中习得的领域知识可以高效迁移至其他架构，且仅需要少量额外训练。这一能力扩展了我们方法的实际应用价值，为在多样化的模型生态系统中实现领域适应提供了简化的路径。
5.知识密集型推理任务

表｜知识密集型问答任务的性能表现
虽然 RAG 方法在提升事实记忆方面表现出色，但在同时需要知识检索与复杂推理的任务中却常常表现较差。先前研究表明，尽管 kNN-LM 能从相关维基百科语料库中检索信息，但在知识密集型问答任务中反而可能影响性能表现。
如上表所示，Memory Decoder 在两项基准测试中成功增强了模型获取事实性知识的能力，同时保持了推理能力，解决了传统检索方法的根本性局限。
实验结果表明，通过学习内化检索模式而非依赖显式推理，Memory Decoder 在保持处理复杂多跳问题所需组合推理能力的同时，还能充分利用扩展后的知识访问优势。
不足

以上结果证明，Memory Decoder 保留了检索方法的记忆能力，又兼具参数化方法的高效性和泛化优势。
Memory Decoder 的多功能性和高效性，使得它能无缝增强任何共享相同 tokenizer 的模型，且只需少量额外训练即可适配不同 tokenizer 和架构的模型。这种能力使得跨模型家族的高效领域适应成为可能，大幅减少了专用模型开发通常所需的资源。
可以说，Memory Decoder开创了领域自适应的新范式，并从根本上重新定义了如何为特定领域定制语言模型。通过预训练记忆组件将领域专业知识与模型架构解耦，这一方法构建了一个更模块化、高效且易于访问的框架，从而能够提升语言模型在专业领域的表现。
然而，Memory Decoder也并非完美，依然存在一些局限性。
例如，在预训练阶段，Memory Decoder 需要通过 KV 数据存储进行搜索，以获取 kNN 分布作为训练信号，这会产生计算开销。尽管该成本仅在每个领域中产生一次，且可分摊至所有适应模型，但这仍是整个流程中的瓶颈。
此外，尽管跨 tokenizer 适应相比从头训练所需参数更新较少，但仍需进行部分参数调整以对齐嵌入空间，阻碍了真正「零样本跨架构迁移」的实现。
作者：小瑜
如需转载或投稿，请直接在公众号内留言

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为Mate 80系列/ X7手机首发鸿蒙版高德地图一体化导航

iRobot深陷危机或易主中国，国内现存机器人相关企业超102.2万家

蚂蚁集团在北京成立管理咨询公司注册资本1亿

重塑传统学科，交大探路“AI+能源”融合育人新范式

realme真我15 Pro《权力的游戏》限定版手机发售，2499元

寻找产业新风向，与院士、企业家共话AI落地

全站最新

华为Mate 80系列/ X7手机首发鸿蒙版高德地图一体化导航

iRobot深陷危机或易主中国，国内现存机器人相关企业超102.2万家

蚂蚁集团在北京成立管理咨询公司注册资本1亿

重塑传统学科，交大探路“AI+能源”融合育人新范式

热门推荐

苹果官旗年末活动：iPhone 17 Pro降价300元

粤电力A成立气电公司

Meta 签约多家媒体，为 Meta AI 聊天机器人带来更多新闻内容

联想等在上海成立创投合伙企业

AMD 苏姿丰回应 AI 泡沫：竞争不惧，创新是关键

凯迪拉克旗下纯电大六座SUV亮相工信部最新一批新车公告

苹果现高管离职潮；百度澄清昆仑芯上市消息丨新鲜早科技

华为Mate 80系列/ X7手机首发鸿蒙版高德地图一体化导航

iRobot深陷危机或易主中国，国内现存机器人相关企业超102.2万家

蚂蚁集团在北京成立管理咨询公司注册资本1亿

修复瘫痪、增强常人，脑机接口会成未来人类「外挂」吗？

蚂蚁集团在北京成立管理咨询公司注册资本1亿元

重塑传统学科，交大探路“AI+能源”融合育人新范式

realme真我15 Pro《权力的游戏》限定版手机发售，2499元

寻找产业新风向，与院士、企业家共话AI落地