![]()
这项由韩国游戏与科技公司KRAFTON旗下AI研究部门与韩国科学技术院(KAIST)联合开展的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2605.28207。感兴趣的读者可通过该编号在arXiv平台检索完整论文。
**一、为什么大模型越来越难"搬进口袋"**
当你在手机上和AI助手聊天,或者让电脑帮你写一段代码时,背后运行的往往是规模庞大的语言模型。这些模型像是由成千上万位"专家"组成的超级智库——每当输入一个问题,模型会先把问题分发给其中几位最合适的专家,再把他们的意见汇总成答案。这种结构在学术界叫做"混合专家模型"(Mixture-of-Experts,简称MoE),是目前全球最顶尖AI产品背后的主流架构,DeepSeek、meta的Llama、阿里的Qwen等大模型都采用了类似设计。
MoE架构的妙处在于,处理每个问题时只需动用一小部分专家,计算量因此大幅下降。然而,这里藏着一个根本性的麻烦:虽然每次只用几位专家,但所有专家的"档案"必须同时存放在内存里——就像一家公司虽然某天只安排8位员工上班,却必须为全部128位员工准备办公桌和储物柜一样。对于内存有限的设备,比如手机、个人电脑或单块显卡,这种要求几乎无法满足。
正因如此,许多公司会额外训练一批更小巧的"紧凑型模型"供普通用户使用。但这些小模型要么从零开始训练,要么从另一个已经训练好的大型稠密模型(也就是"所有专家随时待命"的传统结构)修剪而来,整个过程耗资巨大,而且完全没有利用现成MoE大模型里已经积累的知识。
KRAFTON的研究团队发现了一个更聪明的路径:既然MoE模型本身就很强,为什么不直接从它身上"蒸馏"出一个轻便的稠密模型?这就是这篇论文的核心出发点。
**二、把128位专家团队压缩成8人精锐小队的思路**
研究团队把整个转换过程比作组建一支精锐特战队。原始MoE模型每层有128位专家,每次处理信息时调用其中8位。目标是把这128位专家里最有价值、最互补的8位保留下来,拼接成一个新的"全能战士"——也就是普通的稠密前馈网络(Dense FFN)。
整个流程分三步走。第一步是"海选":给每位专家打一个重要性分数,然后按照某种策略从128人里挑出最优秀的若干人(这个人数用字母K表示,K可以等于8,也可以更多)。如果K等于8,每人单独代表一个席位,直接进队;如果K大于8,就先把入选者分成8个小组,每组内部通过加权平均合并成一个代表。第二步是"拼接":把8个席位的权重矩阵首尾相连,构成一个完整的大型稠密网络,同时对每个席位的输出权重做适当缩放,补偿原来路由器动态分配权重时产生的差异。第三步是"深造":用原始MoE模型作为老师,让新组建的稠密模型对着老师的输出不断学习,弥补拼接过程中不可避免的信息损失。这种"老师教学生"的过程在技术上叫做知识蒸馏。
值得关注的是架构尺寸的匹配关系。Qwen3-30B-A3B这款主力测试模型总参数达300亿,但每次只激活约30亿参数。研究团队的目标就是把它转换成一个参数量同样在33亿左右的稠密模型,在保持参数体量相当的前提下,让后者不再需要把300亿参数的"全员档案"都塞进内存。
**三、怎么给专家打分才算公平——七种方法的较量**
给128位专家打分听起来简单,实则大有讲究。打分方式直接决定了哪些专家能入选精锐小队,错误的选择会让最终模型能力大打折扣。研究团队系统测试了七种打分方法,分成三个层次来理解。
最直观的一类打分叫做"频率系打分",包括三种具体变体:选择频率(SF)、预选择概率(PP)和后选择概率(PS)。这类方法的逻辑是:谁被调用得最多,谁就最重要。可以类比为,在一家公司里根据员工被请去参加会议的次数来判断谁最有价值。然而,这种思路存在明显盲区——被频繁召唤的往往是"万金油"型员工,什么会议都参加,却不一定有专精能力;而那些只在关键时刻出马、一出手就解决大问题的专家,因为出场次数少,反而被低估了。实验结果印证了这一点:三种频率系方法选出的专家几乎完全重叠,彼此高度相似,平均准确率只有约37%。
第二类是"置信度打分"(CP),它的逻辑转变为:不看出场次数,只看路由器对某位专家有多"笃定"。当路由器把任务派给某位专家时,给出的置信分有高有低;CP只统计在专家真正被选中的那些场合下,路由器平均给出了多高的置信分。这就好比评判一位医生时,不看他接诊了多少普通感冒患者,而是看他在接诊疑难杂症时的把握程度。切换到CP打分后,选出的专家阵容与频率系方法几乎没有重叠,模型准确率一跃跳升到约40%,足足高出3个百分点。
在此基础上还可以进一步细化,把置信度和输出幅度结合起来,形成"激活加权条件概率"(ACP)——除了看路由器有多笃定,还要看这位专家被调用时实际输出了多强的信号。一位医生既要有把握,还要真能救人,两者缺一不可。ACP比纯CP再提升约0.5个百分点。
**四、多样性才是真正的秘密武器——D-Optimal方法的诞生**
然而,即便ACP已经比频率打分强很多,研究团队发现它仍有一个致命弱点:它只是独立地评判每位专家,完全没有考虑专家之间的重叠程度。以ACP选出的8位专家为例,很可能其中好几位处理问题的方式极为相似,相当于组建了一支由8个擅长数学的人组成的队伍,却没有历史学家、语言学家或工程师。这样的团队在数学题上无敌,在其他领域却一片空白。
为了解决这个问题,研究团队引入了一个来自经典实验设计领域的数学工具,叫做"D-最优设计"(D-Optimal Design)。这个工具的核心思想是:在选人时,不仅要看每个人自身的能力,还要让团队整体所能覆盖的"能力空间"尽可能大。用线性代数的语言来说,就是最大化所选专家输出向量构成的矩阵的行列式的对数(log-determinant)。
不需要理解那些数学细节,只需知道这个方法做了一件直觉上非常合理的事:当候选人A和候选人B的能力高度重叠时,即便B的个人得分也很高,这个方法也会倾向于把B换成一个能力更独特的候选人C,哪怕C的个人得分稍低。套用"特战队"的比喻:与其招募两位神枪手,不如招募一位神枪手加上一位爆破专家——整体战斗力会更强。
把这种多样性筛选分别与CP和ACP组合,就形成了DO-CP和DO-ACP两种方法。实验数据显示,与纯ACP相比,DO-ACP进一步提升约2个百分点,在所有35种打分与分组的组合中名列第一,平均准确率达到42.6%。从最差的PP方法(约36.9%)到最好的DO-ACP,总差距高达5.7个百分点——这在AI模型评测中是非常显著的差距,相当于模型从"勉强及格"跃升到"表现不俗"。
研究团队还从理论层面证明了这一设计的合理性。他们构造了一个具体的反例,证明单纯按照ACP分数独立排名选人,在某些情况下会导致重建误差永远无法消除;而基于行列式最大化的方法则能在相同情况下实现零误差。此外,他们还证明了这种贪心选择算法在数学上具有"次模函数"性质,保证了贪心策略能达到最优解的至少(1-1/e)约63%的质量——这是有理论保障的近似最优解,而非纯粹经验之谈。
**五、分组方式影响几何,八种拼接路径谁更优**
选好了人之后,还需要决定怎么把他们分成8个小组(当K大于8时),以及每个小组内部怎么合并。研究团队测试了五种分组策略:循环轮转(RR)、权重聚类(WC)、路由向量聚类(RC)、锚点分配(AB)和输出聚类(OC)。
循环轮转的做法最简单,把按分数排好序的专家一个接一个地轮流分配到各组,确保每组都有高分和低分的专家混合。权重聚类则是把专家的权重矩阵展开成一个超长向量,用相似度来决定谁和谁更"像",把相似的人分到一组。路由向量聚类关注的是路由器给每位专家分配的"标签向量",相似标签意味着类似的功能定位。锚点分配先选出8个最高分专家作为"锚点",剩余专家按路由相似度各自投靠最近的锚点。输出聚类则是最直接的一种:直接看专家实际处理数据时产生的输出有多相似,输出最像的归为一组。
实验结果揭示了一个有趣的现象:分组方式对最终结果的影响远比打分方式小得多,35种组合中分组策略带来的差距只有约1.2个百分点,大约是打分方式差距的五分之一。循环轮转以40.1%的平均准确率略占上风,三种聚类方法(权重聚类、路由聚类、输出聚类)紧随其后仅差0.4个百分点,锚点分配则以38.9%排在最后。
更关键的发现是:当K等于8(也就是不需要合并、每组只有一个专家)时,五种分组方法根本没有区别,因为根本不存在分组操作。而实验数据显示,K等于8往往比K等于16取得更好的效果——这说明直接挑出最好的8个专家放进去,比挑出16个再两两合并效果更好。合并操作在某种程度上会稀释专家的独特能力。只有当打分方式本身倾向于选择相似专家时(比如频率系方法),合并才有帮助,因为合并可以把两个几乎相同的专家"平均"成一个更稳定的表示。
**六、用什么方式"上课"也很重要——蒸馏策略的选择**
确定了学生模型的初始结构之后,接下来是蒸馏训练的环节。研究团队在FineWeb-Edu这个高质量教育文本数据集上进行训练,并测试了多种训练策略。
损失函数(可以理解为衡量学生与老师差距的"评分标准")的选择至关重要。研究团队对比了三种方案。正向KL散度要求学生尽可能全面地模仿老师的完整概率分布,相当于要求学生把老师的每一种表达方式都学到;反向KL散度则相反,学生专注于找到自己最有把握的几个答案,忽视老师在低概率区间的细节;第三种是把正向KL与中间层隐状态的均方误差结合起来的综合损失。实验表明,正向KL散度效果最好,比反向KL高出整整6.2个百分点,比综合损失高出近2个百分点。这与其他研究的发现一致:对于这类压缩任务,让学生全面模仿老师的概率分布,比只盯着高概率答案效果更好。
另一个有趣的探索是"扩展教学带宽"。正常情况下,MoE老师每次只激活8位专家。但研究人员参考了其他团队的发现,尝试在训练时让老师激活更多专家(比如16、32个),让学生能接触到平时"不上班"的专家所包含的知识。结果发现,激活16个专家时效果最佳,比默认的8个提升了0.7个百分点;但继续增加到32个以上,效果反而下降。这说明"隔壁桌的同事"确实有些值得学习的东西,但一次接触太多不常用的专家反而引入了噪声。考虑到激活16个专家会让训练速度减慢约一倍,研究团队最终在主要实验中还是选用了标准的8专家配置。
**七、和"从头开始"以及"修剪稠密模型"相比,赢了多少**
研究团队设置了三个对比方案来检验自己的方法究竟有多大优势。
第一个对比是"随机初始化":保留老师模型的注意力层,FFN层则用随机权重初始化,然后同样蒸馏300亿词元的数据。结果显示,这个方案的准确率只有约30%,远低于任何专家选择方案——这证明了专家结构本身确实为蒸馏提供了强有力的起点,随机初始化几乎从零开始学习,效率极低。
第二个对比是"随机FFN加教师注意力":把注意力层整体复制过来,只有FFN部分是随机初始化的。这个方案比完全随机好一点,达到约32.7%,但仍然和最差的专家选择方案(36.3%)有明显差距,说明FFN的初始化质量对最终结果至关重要。
第三个、也是最重要的对比是"稠密模型修剪稠密模型"(D2D),这正是当前行业通用做法——以参数量相当的Qwen3-32B(320亿参数稠密模型)为老师,按照Minitron等方法修剪出33亿参数的学生,然后用稠密老师蒸馏。研究团队非常认真地实施了这个对比:搜索了五种不同的架构方案,选出预蒸馏困惑度最好的那个(保留全部64层、只压缩宽度的方案),用完全相同的数据量和超参数训练。结果,D2D方案只达到约33.3%的准确率,比DO-ACP方案低了整整10个百分点。
这个差距在经过更长训练(约40亿词元,约是短期实验的13倍)后依然显著:DO-ACP达到58.1%,D2D只有51.8%,差距缩小到6.3个百分点,但DO-ACP始终保持领先。训练速度上,MoE-to-dense方案还有一个额外优势:MoE老师每次只激活30亿参数,而稠密老师每次需要完整运行320亿参数,因此MoE方案的训练速度比D2D方案快了1.6倍。换句话说,用更少的时间,得到了更好的学生。
**八、在三个不同的MoE模型上验证——结论经得起考验吗**
一项研究在单一模型上取得好结果很可能是偶然,KRAFTON团队进一步把方法应用到另外两个结构完全不同的MoE模型上验证稳健性。
DeepSeek-V2-Lite是一个160亿参数的基础模型,每层有64个可路由专家加2个"永久上岗"的共享专家,每次激活6个可路由专家。共享专家的存在需要特殊处理:它们不参与路由打分,直接整体复制进稠密模型;路由概率不经过重归一化,因此按每个专家被选中时的平均路由权重来做输出缩放。此外,该模型第一层是普通稠密FFN而非MoE层,需要用零填充来凑齐尺寸。在这个模型上,DO-ACP以K=6(纯剪枝)的配置达到42.4%准确率,是所有配置中最好的,与随机FFN基线相比高出12.1个百分点。
GPT-OSS-20B是一个210亿参数的后训练推理模型,每层只有32个专家,每次激活4个。这个模型的专家池子比Qwen3的128个小很多,研究的一个重要预测在这里得到了印证:专家越多,多样性打分的优势越显著;专家越少,每个专家本来就得负责更大范围的任务,相互之间区分度本就不高,多样性打分的优势自然缩小。具体数字是:Qwen3(128专家)上最好与最差方法的差距达7.1个百分点,DeepSeek(64专家)上缩小到4.3个百分点,GPT-OSS(32专家)上只剩1.6个百分点。即便如此,DO-ACP在GPT-OSS上仍以33.7%的成绩排名第一,高于随机基线约3.7个百分点。
三个模型上有一个共同的最优配置:DO-ACP打分、K等于路由top-k数(纯剪枝,不合并)、正向KL损失。这个"万能配方"在不同架构、不同专家数量、不同训练阶段的模型上都表现最好,说明研究结论具有相当的普适性。
**九、与"为可压缩性预训练"相结合的初步探索**
论文还进行了一个额外的探索性实验,考察一种叫做"EMO"的预训练技术与本方法的兼容性。EMO方法在预训练阶段就对MoE模型做了特殊约束,让每个文档只流经一个固定的专家子集,从而鼓励不同专家形成更强的功能分工。理论上,这样预训练出来的MoE模型里,专家之间的边界更清晰,应该更容易被挑出一小批精华。
实验使用的是一个140亿参数的MoE模型(127个可路由专家加1个共享专家,每次激活7个),配以同架构的普通预训练对照模型。同样使用DO-ACP纯剪枝策略,从EMO模型蒸馏出的15亿参数稠密模型,比从普通模型蒸馏出的同等学生高出3.6个百分点,而且蒸馏前的初始困惑度低了约87倍。图8的训练曲线显示,来自EMO老师的学生从一开始就站在更低的损失基线上,并在整个训练过程中始终保持领先。这表明,如果在预训练阶段就为未来的压缩做准备,MoE-to-dense的效果可以进一步提升。当然,研究团队也坦承,这只是初步验证,两种方法的完整协同设计还需要更多工作。
**十、大量实验数据背后的全景图——350种配置的系统评测**
这项研究最值得称道的地方之一是其实验规模。研究团队对Qwen3-30B-A3B进行了完整的350种配置扫描(7种打分×5种分组×2种缩放×5种K值),每种配置都先测蒸馏前的WikiText-2困惑度,再从每种打分与分组的组合中选出最佳K值进行完整蒸馏,最后在Winogrande、HellaSwag、ARC-Easy、ARC-Challenge和MMLU五个标准下游任务上评估。
完整结果表格揭示了一些有趣的细节。频率系打分的配置困惑度在蒸馏前就极高(大多数超过一万甚至十万),蒸馏后也只能达到37%左右;而DO-ACP配置蒸馏前困惑度只有五千多,蒸馏后直接跳到43%以上。这说明打分方式不仅影响最终结果,也决定了蒸馏起点的质量,两者之间存在强烈的正相关。
在K值的选择上,350个配置里有32个最佳K选在8或16,只有3个选了32以上。这相当清晰地说明,在这种架构下,精选少量高质量专家远优于保留大量专家再做合并。对于频率系打分,最佳K往往是16(需要合并),因为频率系方法选出的专家本来就很相似,合并之后反而能去掉冗余、保留共性;对于DO-ACP,最佳K几乎一律是8(不需要合并),因为多样性筛选已经保证了每位入选者都独一无二,无需借助合并来去重。
**十一、"错误分析"显微镜下的质量差异**
除了数字评测,研究团队还进行了一项颇具洞察力的定性分析。他们让四个经过40亿词元训练的模型(DO-ACP、SF、D2D、随机FFN)各自回答567道MMLU题目,然后用基于规则的启发式方法和大型语言模型裁判(Claude Opus 4.6)对每个回答进行分类,分成六类:正确、答非所问(输出一堆无意义的文字或循环)、重复死循环(同样的句子反复出现)、知识错误(逻辑清晰但事实不对)、推理错误(推理过程有漏洞)和其他(跑题、截断等)。
随机FFN的表现印证了早先的数字结论:它高达79%的回答属于灾难性失败(答非所问和重复死循环),几乎没有进入实质推理阶段,正确率极低。SF模型的表现好一些,但仍有62%的回答是灾难性失败,知识错误率8.1%。D2D模型的答非所问率相对较低(31%),但重复死循环比较多,知识错误率高达12.5%。DO-ACP的总灾难性失败率是四个模型里最低的(54.5%),知识错误率也是最低的(4.2%),正确率达到37.6%。
按学科领域细看,DO-ACP在人文类题目上比SF高出约24个百分点(49.2%对25.4%),在社科类题目上高出约11个百分点,在STEM类题目上差距相对较小(约6个百分点),因为所有模型在数学推理上都普遍吃力。这个模式与研究团队的理论推断吻合:多样性打分选出的专家覆盖了更广泛的知识领域,因此在需要跨领域知识的人文和社科题目上优势更明显。
说到底,这项研究做了一件相当务实的事情:它系统地回答了"如果我们已经有了一个强大但笨重的MoE模型,怎样才能最高效地把它的知识转移到一个轻便的稠密模型里"这个问题。答案出乎意料地清晰:关键不在于用多复杂的合并技巧,而在于一开始就选对人。选对人的秘诀在于,不要只看谁最忙或者谁最自信,而要选那些彼此最不同的高质量专家。这个看起来简单的道理,经过严格数学框架的包装和350种配置的实验验证,形成了一套可以直接复用的工程方法。
对于普通用户来说,这项研究的意义在于:未来可能有更多优质AI模型能在普通个人设备上流畅运行,而不必依赖云端的高性能服务器。对于AI工程师来说,这套方法提供了一条从现有MoE大模型出发、以相对较低的计算成本获得高质量稠密小模型的可行路径,训练速度比传统做法快1.6倍,最终质量还更好。当然,研究团队也诚实地指出了未完成的工作:训练规模还只到40亿词元,离工业级应用的数百亿词元还有距离;当K大于k时如何将合并权重与选择权重解耦、单独优化,也是值得探索的方向;而专家池较小的模型(如32个专家)从这套方法中获益相对有限,可能需要针对性改进。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.28207查阅完整论文及附录中详尽的数学证明和实验数据。
Q&A
Q1:MoE(混合专家模型)为什么占用内存多,明明只用了一小部分专家?
A:MoE模型每次处理信息时确实只激活少数专家,但所有专家的参数必须同时加载到内存中,因为路由器需要在运行时决定调用哪些专家。就像一家公司虽然每天只有部分员工上班,但所有员工的办公桌和档案都必须保留在公司里,不能因为今天没上班就把办公桌撤掉。这种"全员待机"的存储需求,使得MoE模型在内存有限的设备上难以部署。
Q2:DO-ACP打分方法和普通频率打分相比,实际效果差多少?
A:在Qwen3-30B-A3B模型上,DO-ACP方法在五个标准评测任务的平均准确率约为43.4%,而频率打分(SF、PP、PS)的结果普遍在37%左右,差距约为5到6个百分点。在经过约40亿词元的长期训练后,这个差距略有收窄但依然明显,DO-ACP达到58.1%,而频率系最佳配置只有53.5%。5个百分点的差距在AI评测中相当于模型从"一般可用"跨越到"表现稳定"的档次差异。
Q3:MoE转稠密模型和直接修剪稠密模型相比,哪种方式训练更快、结果更好?
A:两个维度上MoE转稠密方案都占优。训练速度上,MoE老师每次只激活约30亿参数,而等规模的稠密老师(Qwen3-32B)需要运行全部320亿参数,因此MoE方案的训练吞吐量快了约1.6倍,相同时间内能处理更多数据。最终质量上,DO-ACP方案在约40亿词元训练后平均准确率达到58.1%,而稠密模型修剪方案只有51.8%,差距约6个百分点。两者使用的数据量和超参数完全相同,MoE起点的知识更丰富是核心原因。





京公网安备 11011402013531号