当前位置: 首页 » 资讯 » 新科技 » 正文

炸了!DeepSeek 给大模型装 “记忆外挂”,新论文剧透下一代模型

IP属地 中国·北京 编辑:柳晴雪 笋初讲武 时间:2026-01-15 20:14:58

节前大家都在忙着冲业绩,AI圈却被DeepSeek搞出的大新闻炸了锅。你有没有想过,为啥大模型记个固定名词都要费半天劲?

这次梁文锋带着北大团队甩出的“记忆外挂”,或许能彻底改变这一现状。

他们发布的新论文提出了“条件记忆”概念,推出的Engram记忆模块还开源了代码,直指下一代稀疏模型的核心。

1月14日的报道显示,DeepSeek元旦刚发布过模型稳定性论文,这次高密度技术输出并非凑KPI,而是在为下一代模型蓄力。

同时,公司近期正在大量扩招核心岗位,校招社招同步开放,岗位覆盖北京、杭州两地,显然是在为新模型的落地储备力量。

大模型“记东西太笨”?反向操作搞“查表式记忆”

在搞懂这个新模块之前,咱们得先说说大模型的一个老毛病——记东西太笨。现在主流的Transformer架构,堪称“勤奋的笨蛋”,识别一个简单的实体都要耗费大量算力。

就拿“戴安娜王妃”这个称呼来说,模型要经过6层计算才能准确识别。

前几层还在纠结“威尔士是英国的一个地区”“威尔士王妃是个头衔”这些中间信息,最后才能拼凑出完整的概念。

这种把宝贵的推理算力浪费在“认单词”这种苦力活上的做法,早就该被优化了。

新京报1月13日的报道指出,这篇论文的核心就是瞄准了大模型的记忆力短板,把语言建模清晰拆成了“静态检索”和“动态推理”两种不同任务。

这篇论文由北大与DeepSeek联合完成,梁文锋是核心作者,他们给出的破局思路相当反常规——回归被时代遗忘的“老古董”N-gram方法,搞“条件记忆”。

简单说就是给大模型配一本“随身小字典”,专门存那些固定的实体名称和两三字短语。不管这本字典有多大,查找信息都是瞬间完成,速度快到可以忽略不计。

这个思路的关键,就是把静态知识的检索和动态的推理计算分离开来,不让两者互相拖累。

参数分配藏玄机,V4模型春节前要亮相?

论文最有意思的部分,是对“稀疏性分配问题”的系统研究。

团队做了个严格的实验:固定总参数量和每token的激活参数量,然后在MoE专家和Engram记忆之间重新分配“闲置参数”。

实验结果画出了一条清晰的U型曲线,彻底打破了“纯MoE最牛”的固有认知。当把20%-25%的稀疏参数预算分给Engram记忆,75%-80%留给MoE时,模型的验证集loss降到了最低点,也就是模型最聪明的状态。

在100亿参数规模下,这个最优配置比纯MoE的loss降低了0.0139,而且这个最优比例在不同计算预算下都很稳定。

按照这个最优配比,团队把Engram扩展到27B规模做验证,结果相当惊艳。和同规模的纯MoE模型比,知识密集型任务的提升在意料之中,MMLU提升3分,CMMLU提升4.0分,TriviaQA提升1.9分。

不止性能暴涨,还改写大模型“卷参数”规则

这次技术突破的直接结果相当明确:Engram-27B在多个任务上全面超越同规模纯MoE模型,扩展到40B规模后,大部分任务性能还在持续提升,训练后期损失仍在下降,说明记忆容量还有很大提升空间。

同时,长上下文处理能力大幅增强,推理成本却低到可以忽略不计。

更重要的是它带来的行业影响,直接终结了大模型“堆参数”的蛮荒时代。

长久以来,行业内似乎形成了“参数越大模型越牛”的误区,各大厂商纷纷比拼参数规模,导致显存成本高企。而DeepSeek用实验证明,“存算分离”才是下一代稀疏模型的关键。

36氪1月14日的报道分析指出,Engram解决了大模型“记不住、推理慢”的问题,而DeepSeek此前发布的mHC论文解决了“长不大、练不稳”的痛点,两者叠加正好构成了V4模型的核心架构。

这种算法层面的优化,比单纯买更多更贵的芯片更具战略意义,将对显存成本高企的行业形成降维打击。

这一技术还为大模型架构创新指明了新方向,把“硬件感知效率”确立为核心设计原则。

这种存储与计算解耦的思路,让海量参数表可以卸载到主机内存,不仅降低了硬件成本,还为多模态、万亿参数模型的研发铺了路。

中国团队在这个核心领域的突破,也重新定义了AI竞赛的规则。以往大家都在追随国外的技术路线,而这次DeepSeek提出的“条件记忆”,被团队明确称为“下一代稀疏模型不可或缺的建模原语”,相当于在国际AI竞赛中提出了自己的新赛道。

从技术辐射的角度看,这种“查表式记忆”的思路还能应用到更多AI领域。

只要是存在大量静态知识需要检索的场景,都能借鉴这种把静态任务和动态任务分离的思路,提升模型效率、降低成本。对于整个AI行业来说,这无疑是一次具有里程碑意义的技术突破。

DeepSeek这波操作,本质上是给大模型补了节“记忆力课”,把“死记硬背”的活儿外包出去,让模型能专心搞“逻辑思考”。

条件记忆已成下一代稀疏模型必备,Engram的开源也让全行业能共享这份技术红利。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。