当前位置：首页 » 资讯 » 新科技 » 正文

KRAFTON研究团队找到了把庞大AI专家团队压缩进一张芯片的方法

IP属地中国·北京 科技行者 时间：2026-06-16 18:23:18

这项由韩国游戏与科技公司KRAFTON旗下AI研究部门与韩国科学技术院（KAIST）联合开展的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2605.28207。感兴趣的读者可通过该编号在arXiv平台检索完整论文。
**一、为什么大模型越来越难"搬进口袋"**
当你在手机上和AI助手聊天，或者让电脑帮你写一段代码时，背后运行的往往是规模庞大的语言模型。这些模型像是由成千上万位"专家"组成的超级智库——每当输入一个问题，模型会先把问题分发给其中几位最合适的专家，再把他们的意见汇总成答案。这种结构在学术界叫做"混合专家模型"（Mixture-of-Experts，简称MoE），是目前全球最顶尖AI产品背后的主流架构，DeepSeek、meta的Llama、阿里的Qwen等大模型都采用了类似设计。
MoE架构的妙处在于，处理每个问题时只需动用一小部分专家，计算量因此大幅下降。然而，这里藏着一个根本性的麻烦：虽然每次只用几位专家，但所有专家的"档案"必须同时存放在内存里——就像一家公司虽然某天只安排8位员工上班，却必须为全部128位员工准备办公桌和储物柜一样。对于内存有限的设备，比如手机、个人电脑或单块显卡，这种要求几乎无法满足。
正因如此，许多公司会额外训练一批更小巧的"紧凑型模型"供普通用户使用。但这些小模型要么从零开始训练，要么从另一个已经训练好的大型稠密模型（也就是"所有专家随时待命"的传统结构）修剪而来，整个过程耗资巨大，而且完全没有利用现成MoE大模型里已经积累的知识。
KRAFTON的研究团队发现了一个更聪明的路径：既然MoE模型本身就很强，为什么不直接从它身上"蒸馏"出一个轻便的稠密模型？这就是这篇论文的核心出发点。
**二、把128位专家团队压缩成8人精锐小队的思路**
研究团队把整个转换过程比作组建一支精锐特战队。原始MoE模型每层有128位专家，每次处理信息时调用其中8位。目标是把这128位专家里最有价值、最互补的8位保留下来，拼接成一个新的"全能战士"——也就是普通的稠密前馈网络（Dense FFN）。
整个流程分三步走。第一步是"海选"：给每位专家打一个重要性分数，然后按照某种策略从128人里挑出最优秀的若干人（这个人数用字母K表示，K可以等于8，也可以更多）。如果K等于8，每人单独代表一个席位，直接进队；如果K大于8，就先把入选者分成8个小组，每组内部通过加权平均合并成一个代表。第二步是"拼接"：把8个席位的权重矩阵首尾相连，构成一个完整的大型稠密网络，同时对每个席位的输出权重做适当缩放，补偿原来路由器动态分配权重时产生的差异。第三步是"深造"：用原始MoE模型作为老师，让新组建的稠密模型对着老师的输出不断学习，弥补拼接过程中不可避免的信息损失。这种"老师教学生"的过程在技术上叫做知识蒸馏。
值得关注的是架构尺寸的匹配关系。Qwen3-30B-A3B这款主力测试模型总参数达300亿，但每次只激活约30亿参数。研究团队的目标就是把它转换成一个参数量同样在33亿左右的稠密模型，在保持参数体量相当的前提下，让后者不再需要把300亿参数的"全员档案"都塞进内存。
**三、怎么给专家打分才算公平——七种方法的较量**
给128位专家打分听起来简单，实则大有讲究。打分方式直接决定了哪些专家能入选精锐小队，错误的选择会让最终模型能力大打折扣。研究团队系统测试了七种打分方法，分成三个层次来理解。
最直观的一类打分叫做"频率系打分"，包括三种具体变体：选择频率（SF）、预选择概率（PP）和后选择概率（PS）。这类方法的逻辑是：谁被调用得最多，谁就最重要。可以类比为，在一家公司里根据员工被请去参加会议的次数来判断谁最有价值。然而，这种思路存在明显盲区——被频繁召唤的往往是"万金油"型员工，什么会议都参加，却不一定有专精能力；而那些只在关键时刻出马、一出手就解决大问题的专家，因为出场次数少，反而被低估了。实验结果印证了这一点：三种频率系方法选出的专家几乎完全重叠，彼此高度相似，平均准确率只有约37%。
第二类是"置信度打分"（CP），它的逻辑转变为：不看出场次数，只看路由器对某位专家有多"笃定"。当路由器把任务派给某位专家时，给出的置信分有高有低；CP只统计在专家真正被选中的那些场合下，路由器平均给出了多高的置信分。这就好比评判一位医生时，不看他接诊了多少普通感冒患者，而是看他在接诊疑难杂症时的把握程度。切换到CP打分后，选出的专家阵容与频率系方法几乎没有重叠，模型准确率一跃跳升到约40%，足足高出3个百分点。
在此基础上还可以进一步细化，把置信度和输出幅度结合起来，形成"激活加权条件概率"（ACP）——除了看路由器有多笃定，还要看这位专家被调用时实际输出了多强的信号。一位医生既要有把握，还要真能救人，两者缺一不可。ACP比纯CP再提升约0.5个百分点。
**四、多样性才是真正的秘密武器——D-Optimal方法的诞生**
然而，即便ACP已经比频率打分强很多，研究团队发现它仍有一个致命弱点：它只是独立地评判每位专家，完全没有考虑专家之间的重叠程度。以ACP选出的8位专家为例，很可能其中好几位处理问题的方式极为相似，相当于组建了一支由8个擅长数学的人组成的队伍，却没有历史学家、语言学家或工程师。这样的团队在数学题上无敌，在其他领域却一片空白。
为了解决这个问题，研究团队引入了一个来自经典实验设计领域的数学工具，叫做"D-最优设计"（D-Optimal Design）。这个工具的核心思想是：在选人时，不仅要看每个人自身的能力，还要让团队整体所能覆盖的"能力空间"尽可能大。用线性代数的语言来说，就是最大化所选专家输出向量构成的矩阵的行列式的对数（log-determinant）。
不需要理解那些数学细节，只需知道这个方法做了一件直觉上非常合理的事：当候选人A和候选人B的能力高度重叠时，即便B的个人得分也很高，这个方法也会倾向于把B换成一个能力更独特的候选人C，哪怕C的个人得分稍低。套用"特战队"的比喻：与其招募两位神枪手，不如招募一位神枪手加上一位爆破专家——整体战斗力会更强。
把这种多样性筛选分别与CP和ACP组合，就形成了DO-CP和DO-ACP两种方法。实验数据显示，与纯ACP相比，DO-ACP进一步提升约2个百分点，在所有35种打分与分组的组合中名列第一，平均准确率达到42.6%。从最差的PP方法（约36.9%）到最好的DO-ACP，总差距高达5.7个百分点——这在AI模型评测中是非常显著的差距，相当于模型从"勉强及格"跃升到"表现不俗"。
研究团队还从理论层面证明了这一设计的合理性。他们构造了一个具体的反例，证明单纯按照ACP分数独立排名选人，在某些情况下会导致重建误差永远无法消除；而基于行列式最大化的方法则能在相同情况下实现零误差。此外，他们还证明了这种贪心选择算法在数学上具有"次模函数"性质，保证了贪心策略能达到最优解的至少（1-1/e）约63%的质量——这是有理论保障的近似最优解，而非纯粹经验之谈。
**五、分组方式影响几何，八种拼接路径谁更优**
选好了人之后，还需要决定怎么把他们分成8个小组（当K大于8时），以及每个小组内部怎么合并。研究团队测试了五种分组策略：循环轮转（RR）、权重聚类（WC）、路由向量聚类（RC）、锚点分配（AB）和输出聚类（OC）。
循环轮转的做法最简单，把按分数排好序的专家一个接一个地轮流分配到各组，确保每组都有高分和低分的专家混合。权重聚类则是把专家的权重矩阵展开成一个超长向量，用相似度来决定谁和谁更"像"，把相似的人分到一组。路由向量聚类关注的是路由器给每位专家分配的"标签向量"，相似标签意味着类似的功能定位。锚点分配先选出8个最高分专家作为"锚点"，剩余专家按路由相似度各自投靠最近的锚点。输出聚类则是最直接的一种：直接看专家实际处理数据时产生的输出有多相似，输出最像的归为一组。
实验结果揭示了一个有趣的现象：分组方式对最终结果的影响远比打分方式小得多，35种组合中分组策略带来的差距只有约1.2个百分点，大约是打分方式差距的五分之一。循环轮转以40.1%的平均准确率略占上风，三种聚类方法（权重聚类、路由聚类、输出聚类）紧随其后仅差0.4个百分点，锚点分配则以38.9%排在最后。
更关键的发现是：当K等于8（也就是不需要合并、每组只有一个专家）时，五种分组方法根本没有区别，因为根本不存在分组操作。而实验数据显示，K等于8往往比K等于16取得更好的效果——这说明直接挑出最好的8个专家放进去，比挑出16个再两两合并效果更好。合并操作在某种程度上会稀释专家的独特能力。只有当打分方式本身倾向于选择相似专家时（比如频率系方法），合并才有帮助，因为合并可以把两个几乎相同的专家"平均"成一个更稳定的表示。
**六、用什么方式"上课"也很重要——蒸馏策略的选择**
确定了学生模型的初始结构之后，接下来是蒸馏训练的环节。研究团队在FineWeb-Edu这个高质量教育文本数据集上进行训练，并测试了多种训练策略。
损失函数（可以理解为衡量学生与老师差距的"评分标准"）的选择至关重要。研究团队对比了三种方案。正向KL散度要求学生尽可能全面地模仿老师的完整概率分布，相当于要求学生把老师的每一种表达方式都学到；反向KL散度则相反，学生专注于找到自己最有把握的几个答案，忽视老师在低概率区间的细节；第三种是把正向KL与中间层隐状态的均方误差结合起来的综合损失。实验表明，正向KL散度效果最好，比反向KL高出整整6.2个百分点，比综合损失高出近2个百分点。这与其他研究的发现一致：对于这类压缩任务，让学生全面模仿老师的概率分布，比只盯着高概率答案效果更好。
另一个有趣的探索是"扩展教学带宽"。正常情况下，MoE老师每次只激活8位专家。但研究人员参考了其他团队的发现，尝试在训练时让老师激活更多专家（比如16、32个），让学生能接触到平时"不上班"的专家所包含的知识。结果发现，激活16个专家时效果最佳，比默认的8个提升了0.7个百分点；但继续增加到32个以上，效果反而下降。这说明"隔壁桌的同事"确实有些值得学习的东西，但一次接触太多不常用的专家反而引入了噪声。考虑到激活16个专家会让训练速度减慢约一倍，研究团队最终在主要实验中还是选用了标准的8专家配置。
**七、和"从头开始"以及"修剪稠密模型"相比，赢了多少**
研究团队设置了三个对比方案来检验自己的方法究竟有多大优势。
第一个对比是"随机初始化"：保留老师模型的注意力层，FFN层则用随机权重初始化，然后同样蒸馏300亿词元的数据。结果显示，这个方案的准确率只有约30%，远低于任何专家选择方案——这证明了专家结构本身确实为蒸馏提供了强有力的起点，随机初始化几乎从零开始学习，效率极低。
第二个对比是"随机FFN加教师注意力"：把注意力层整体复制过来，只有FFN部分是随机初始化的。这个方案比完全随机好一点，达到约32.7%，但仍然和最差的专家选择方案（36.3%）有明显差距，说明FFN的初始化质量对最终结果至关重要。
第三个、也是最重要的对比是"稠密模型修剪稠密模型"（D2D），这正是当前行业通用做法——以参数量相当的Qwen3-32B（320亿参数稠密模型）为老师，按照Minitron等方法修剪出33亿参数的学生，然后用稠密老师蒸馏。研究团队非常认真地实施了这个对比：搜索了五种不同的架构方案，选出预蒸馏困惑度最好的那个（保留全部64层、只压缩宽度的方案），用完全相同的数据量和超参数训练。结果，D2D方案只达到约33.3%的准确率，比DO-ACP方案低了整整10个百分点。
这个差距在经过更长训练（约40亿词元，约是短期实验的13倍）后依然显著：DO-ACP达到58.1%，D2D只有51.8%，差距缩小到6.3个百分点，但DO-ACP始终保持领先。训练速度上，MoE-to-dense方案还有一个额外优势：MoE老师每次只激活30亿参数，而稠密老师每次需要完整运行320亿参数，因此MoE方案的训练速度比D2D方案快了1.6倍。换句话说，用更少的时间，得到了更好的学生。
**八、在三个不同的MoE模型上验证——结论经得起考验吗**
一项研究在单一模型上取得好结果很可能是偶然，KRAFTON团队进一步把方法应用到另外两个结构完全不同的MoE模型上验证稳健性。
DeepSeek-V2-Lite是一个160亿参数的基础模型，每层有64个可路由专家加2个"永久上岗"的共享专家，每次激活6个可路由专家。共享专家的存在需要特殊处理：它们不参与路由打分，直接整体复制进稠密模型；路由概率不经过重归一化，因此按每个专家被选中时的平均路由权重来做输出缩放。此外，该模型第一层是普通稠密FFN而非MoE层，需要用零填充来凑齐尺寸。在这个模型上，DO-ACP以K=6（纯剪枝）的配置达到42.4%准确率，是所有配置中最好的，与随机FFN基线相比高出12.1个百分点。
GPT-OSS-20B是一个210亿参数的后训练推理模型，每层只有32个专家，每次激活4个。这个模型的专家池子比Qwen3的128个小很多，研究的一个重要预测在这里得到了印证：专家越多，多样性打分的优势越显著；专家越少，每个专家本来就得负责更大范围的任务，相互之间区分度本就不高，多样性打分的优势自然缩小。具体数字是：Qwen3（128专家）上最好与最差方法的差距达7.1个百分点，DeepSeek（64专家）上缩小到4.3个百分点，GPT-OSS（32专家）上只剩1.6个百分点。即便如此，DO-ACP在GPT-OSS上仍以33.7%的成绩排名第一，高于随机基线约3.7个百分点。
三个模型上有一个共同的最优配置：DO-ACP打分、K等于路由top-k数（纯剪枝，不合并）、正向KL损失。这个"万能配方"在不同架构、不同专家数量、不同训练阶段的模型上都表现最好，说明研究结论具有相当的普适性。
**九、与"为可压缩性预训练"相结合的初步探索**
论文还进行了一个额外的探索性实验，考察一种叫做"EMO"的预训练技术与本方法的兼容性。EMO方法在预训练阶段就对MoE模型做了特殊约束，让每个文档只流经一个固定的专家子集，从而鼓励不同专家形成更强的功能分工。理论上，这样预训练出来的MoE模型里，专家之间的边界更清晰，应该更容易被挑出一小批精华。
实验使用的是一个140亿参数的MoE模型（127个可路由专家加1个共享专家，每次激活7个），配以同架构的普通预训练对照模型。同样使用DO-ACP纯剪枝策略，从EMO模型蒸馏出的15亿参数稠密模型，比从普通模型蒸馏出的同等学生高出3.6个百分点，而且蒸馏前的初始困惑度低了约87倍。图8的训练曲线显示，来自EMO老师的学生从一开始就站在更低的损失基线上，并在整个训练过程中始终保持领先。这表明，如果在预训练阶段就为未来的压缩做准备，MoE-to-dense的效果可以进一步提升。当然，研究团队也坦承，这只是初步验证，两种方法的完整协同设计还需要更多工作。
**十、大量实验数据背后的全景图——350种配置的系统评测**
这项研究最值得称道的地方之一是其实验规模。研究团队对Qwen3-30B-A3B进行了完整的350种配置扫描（7种打分×5种分组×2种缩放×5种K值），每种配置都先测蒸馏前的WikiText-2困惑度，再从每种打分与分组的组合中选出最佳K值进行完整蒸馏，最后在Winogrande、HellaSwag、ARC-Easy、ARC-Challenge和MMLU五个标准下游任务上评估。
完整结果表格揭示了一些有趣的细节。频率系打分的配置困惑度在蒸馏前就极高（大多数超过一万甚至十万），蒸馏后也只能达到37%左右；而DO-ACP配置蒸馏前困惑度只有五千多，蒸馏后直接跳到43%以上。这说明打分方式不仅影响最终结果，也决定了蒸馏起点的质量，两者之间存在强烈的正相关。
在K值的选择上，350个配置里有32个最佳K选在8或16，只有3个选了32以上。这相当清晰地说明，在这种架构下，精选少量高质量专家远优于保留大量专家再做合并。对于频率系打分，最佳K往往是16（需要合并），因为频率系方法选出的专家本来就很相似，合并之后反而能去掉冗余、保留共性；对于DO-ACP，最佳K几乎一律是8（不需要合并），因为多样性筛选已经保证了每位入选者都独一无二，无需借助合并来去重。
**十一、"错误分析"显微镜下的质量差异**
除了数字评测，研究团队还进行了一项颇具洞察力的定性分析。他们让四个经过40亿词元训练的模型（DO-ACP、SF、D2D、随机FFN）各自回答567道MMLU题目，然后用基于规则的启发式方法和大型语言模型裁判（Claude Opus 4.6）对每个回答进行分类，分成六类：正确、答非所问（输出一堆无意义的文字或循环）、重复死循环（同样的句子反复出现）、知识错误（逻辑清晰但事实不对）、推理错误（推理过程有漏洞）和其他（跑题、截断等）。
随机FFN的表现印证了早先的数字结论：它高达79%的回答属于灾难性失败（答非所问和重复死循环），几乎没有进入实质推理阶段，正确率极低。SF模型的表现好一些，但仍有62%的回答是灾难性失败，知识错误率8.1%。D2D模型的答非所问率相对较低（31%），但重复死循环比较多，知识错误率高达12.5%。DO-ACP的总灾难性失败率是四个模型里最低的（54.5%），知识错误率也是最低的（4.2%），正确率达到37.6%。
按学科领域细看，DO-ACP在人文类题目上比SF高出约24个百分点（49.2%对25.4%），在社科类题目上高出约11个百分点，在STEM类题目上差距相对较小（约6个百分点），因为所有模型在数学推理上都普遍吃力。这个模式与研究团队的理论推断吻合：多样性打分选出的专家覆盖了更广泛的知识领域，因此在需要跨领域知识的人文和社科题目上优势更明显。
说到底，这项研究做了一件相当务实的事情：它系统地回答了"如果我们已经有了一个强大但笨重的MoE模型，怎样才能最高效地把它的知识转移到一个轻便的稠密模型里"这个问题。答案出乎意料地清晰：关键不在于用多复杂的合并技巧，而在于一开始就选对人。选对人的秘诀在于，不要只看谁最忙或者谁最自信，而要选那些彼此最不同的高质量专家。这个看起来简单的道理，经过严格数学框架的包装和350种配置的实验验证，形成了一套可以直接复用的工程方法。
对于普通用户来说，这项研究的意义在于：未来可能有更多优质AI模型能在普通个人设备上流畅运行，而不必依赖云端的高性能服务器。对于AI工程师来说，这套方法提供了一条从现有MoE大模型出发、以相对较低的计算成本获得高质量稠密小模型的可行路径，训练速度比传统做法快1.6倍，最终质量还更好。当然，研究团队也诚实地指出了未完成的工作：训练规模还只到40亿词元，离工业级应用的数百亿词元还有距离；当K大于k时如何将合并权重与选择权重解耦、单独优化，也是值得探索的方向；而专家池较小的模型（如32个专家）从这套方法中获益相对有限，可能需要针对性改进。有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.28207查阅完整论文及附录中详尽的数学证明和实验数据。
Q&A
Q1：MoE（混合专家模型）为什么占用内存多，明明只用了一小部分专家？
A：MoE模型每次处理信息时确实只激活少数专家，但所有专家的参数必须同时加载到内存中，因为路由器需要在运行时决定调用哪些专家。就像一家公司虽然每天只有部分员工上班，但所有员工的办公桌和档案都必须保留在公司里，不能因为今天没上班就把办公桌撤掉。这种"全员待机"的存储需求，使得MoE模型在内存有限的设备上难以部署。
Q2：DO-ACP打分方法和普通频率打分相比，实际效果差多少？
A：在Qwen3-30B-A3B模型上，DO-ACP方法在五个标准评测任务的平均准确率约为43.4%，而频率打分（SF、PP、PS）的结果普遍在37%左右，差距约为5到6个百分点。在经过约40亿词元的长期训练后，这个差距略有收窄但依然明显，DO-ACP达到58.1%，而频率系最佳配置只有53.5%。5个百分点的差距在AI评测中相当于模型从"一般可用"跨越到"表现稳定"的档次差异。
Q3：MoE转稠密模型和直接修剪稠密模型相比，哪种方式训练更快、结果更好？
A：两个维度上MoE转稠密方案都占优。训练速度上，MoE老师每次只激活约30亿参数，而等规模的稠密老师（Qwen3-32B）需要运行全部320亿参数，因此MoE方案的训练吞吐量快了约1.6倍，相同时间内能处理更多数据。最终质量上，DO-ACP方案在约40亿词元训练后平均准确率达到58.1%，而稠密模型修剪方案只有51.8%，差距约6个百分点。两者使用的数据量和超参数完全相同，MoE起点的知识更丰富是核心原因。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Anthropic撤回禁令，智能眼镜销量持续走高，荣耀新机型搭载超大容量电池

央视关注三大运营商“新老用户不同权”问题，更换套餐阻碍重重

Keychron国行推出Q1 Ultra 8K机械键盘：75%配列，660hr续航

OPPO、vivo万元档影像旗舰排期曝光

史上最大改版！AI版支付宝启动邀测，一个对话框搞定缴费、转账等上万项服务

AI版支付宝（阿宝）诞生的底层逻辑丨商业快评

全站最新

Anthropic撤回禁令，智能眼镜销量持续走高，荣耀新机型搭载超大容量电池

央视关注三大运营商“新老用户不同权”问题，更换套餐阻碍重重

Keychron国行推出Q1 Ultra 8K机械键盘：75%配列，660hr续航

OPPO、vivo万元档影像旗舰排期曝光

热门推荐

Anthropic撤回禁令，智能眼镜销量持续走高，荣耀新机型搭载超大容量电池

央视关注三大运营商“新老用户不同权”问题，更换套餐阻碍重重

Keychron国行推出Q1 Ultra 8K机械键盘：75%配列，660hr续航

OPPO、vivo万元档影像旗舰排期曝光

史上最大改版！AI版支付宝启动邀测，一个对话框搞定缴费、转账等上万项服务

烧不动了，Meta呼吁别再打token消耗战

AI版支付宝（阿宝）诞生的底层逻辑丨商业快评

Citrini：AMD和苹果双双押注闪存替代DRAM，内存成本或直降55倍

高管押上未来十年收益，理想这次动了真格

HBM之后的“存储超级风口”——NAND! AMD(AMD.US)果断出手吞下MEXT 闪存正在主导“AI推理经济学”

利好来了！算力网，万亿级投资周期开启！

刘鹏出任沃尔玛（中国）董事长

当AI Agent开始工作，安全该如何跟上？AgentDoG 1.5开源发布

字节豆包日收入不足百万，Seedance毛利率达70%

上海一知名电商双标？外国人不加班，中国人补工时