当前位置: 首页 » 资讯 » 人工智能 » 正文

奥尔堡大学等机构联合提出"学习式缩放"让大模型瘦身更聪明

IP属地 中国·北京 科技行者 时间:2026-06-16 18:22:19


这项由丹麦奥尔堡大学哥本哈根分校、意大利热那亚大学、欧洲核子研究中心(CERN)以及美国Ceva公司联合完成的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2606.07098。研究提出了一种名为SigmaScale的大型语言模型压缩方法,有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整原文。

手机里的导航App、客服聊天机器人、帮你写邮件的AI助手——这些功能背后,都有一个或大或小的语言模型在默默运转。但这些模型的"大脑"有多大?顶级的大语言模型动辄拥有数百亿甚至上千亿个参数,相当于一本几十亿页的百科全书。这样庞大的"大脑"要运行起来,对计算资源的消耗极其惊人,绝大多数普通设备根本无法承载。正因如此,如何在不过多损失智能的前提下,让这些AI大脑"瘦身",成了整个人工智能领域最热门的研究课题之一。

SigmaScale正是这一背景下诞生的新方案。它的核心思路是:与其被动地裁剪模型,不如主动地"重新排列权重的内部结构",让压缩变得更加精准高效。

一、为什么AI大脑需要"减肥",以及减肥有多难

先打一个比方。一个拥有数百亿参数的大语言模型,就像一家超大型图书馆,里面藏着数亿本书。每次有人提问,图书馆的所有员工都要同时上岗,翻遍所有书架才能给出答案。这固然准确,但电费和人工成本高得惊人。普通家庭的书房根本放不下,更别提供电了。

AI压缩技术想解决的,就是如何把这座超大型图书馆"搬进"一个小书房,同时保留最核心的知识。目前主流的压缩方式有几种大路线。量化技术就像把精装书换成口袋书,字印得小一些但内容一样;剪枝技术则是直接把某些使用频率极低的书架整个拆掉;知识蒸馏是让一个大模型把知识"教"给一个小模型,就像老师带学生。而本文研究的"低秩分解",则是一种更数学化的操作——把一本厚重的百科全书拆分成两本薄书,这两本薄书合在一起能还原原来大部分的内容。

低秩分解的优势在于不需要特殊的硬件支持,可以和量化、剪枝等方法叠加使用,灵活性很强。实现低秩分解最经典的数学工具叫做"奇异值分解",简称SVD。用图书馆的比喻来说,SVD会把图书馆里所有书按重要程度排序,然后只保留最重要的那一部分,把剩下的丢弃掉。

然而问题在于,如果直接用SVD压缩神经网络的权重矩阵,效果往往不理想。根本原因是:这些权重矩阵里有一些"异常值",就像图书馆里有几本极度偏门但被某类读者极度需要的书。如果SVD不加分辨地按照统一标准排序,这些特殊书籍就可能被误删,导致模型在某些任务上表现大幅下降。

此前学界已经提出了一些改进思路,核心是在做SVD之前先对权重矩阵做一个"预处理"——用一个缩放矩阵S对权重做变换,让矩阵内部的结构更适合被压缩,然后再执行SVD。代表性工作包括ASVD和SVD-LLM,前者通过吸收激活值中的异常值来改善缩放,后者通过对激活协方差矩阵做Cholesky分解来对齐奇异值和压缩损失。然而,这些方法得到缩放矩阵S的方式都是"解析推导"的——也就是说,S是根据某个数学公式一次性算出来的,而不是通过反复试验、不断改进得到的。

SigmaScale的研究团队提出了一个截然不同的问题:如果我们不去推导S,而是直接让机器自己去"学"出最好的S,会怎样?

二、SigmaScale的核心思路:让缩放矩阵自己"成长"

在理解SigmaScale具体做什么之前,先把这个核心比喻定下来:整个压缩过程就像给一张皱巴巴的地图重新熨平,再折叠成一个小包。

原始的权重矩阵就是那张皱巴巴的大地图,里面信息密集,皱褶(即异常值和不均匀的信息分布)使得折叠(压缩)时总会丢失关键细节。缩放矩阵S就是熨斗,它可以在折叠之前先把地图熨平,让折叠时丢失的信息尽可能少。以前的方法是根据地图皱褶的位置直接推算熨斗的温度和运动轨迹(解析推导)。而SigmaScale的方法是:先把熨斗放上去,观察折叠后的效果,根据效果反馈不断调整熨斗的力度和角度,直到折叠出来的效果最好为止(梯度优化学习)。

在技术实现上,SigmaScale为每个权重矩阵分别准备两组可学习的向量,分别负责行方向和列方向的缩放,合称dr和dc。通过对这两个向量取指数,就能得到永远为正的对角缩放矩阵Sr和Sc(指数函数的值恒为正,保证了缩放是合法的线性变换)。整个过程是:先用Sr和Sc对原始权重矩阵W做行列缩放,得到一个被"熨平"了的新矩阵,然后对这个新矩阵执行SVD截断压缩,最后再把缩放的效果"反向撤销",还原回原始参数空间里的低秩近似矩阵W'。

为了衡量压缩效果好不好,研究团队设计了一个"激活感知损失函数":把原始权重矩阵W和压缩后的矩阵W'分别作用于一批真实的输入数据X,比较两者输出的差距。这批输入数据来自一个"校准集"——研究中使用了Wikitext数据集的训练子集,共32条长度为2048个词语的文本。差距越小,说明压缩后的模型"行为"和原始模型越接近。

在优化过程中,梯度(即告诉熨斗"往哪个方向调"的信号)需要通过SVD这一步向前传播,而SVD的导数在数学上存在不稳定的地方(当两个奇异值非常接近时,分母趋近于零,导数会爆炸)。研究团队采用的应对策略是:一旦检测到这种不稳定情况就跳过该次更新步骤。在实验中,即使有部分步骤被跳过,损失函数依然能够正常收敛,通常会触发早停机制,说明这种"容错"处理方式在实践中是可行的。

整个缩放矩阵的训练在两张Nvidia H100 GPU上进行,每个实验条件(一个模型加上一个压缩比例)平均耗时约45.5小时。相比之下,后续的后压缩微调在两张AMD MI300X GPU上只需约2小时。

三、流水线全貌:从"敏感性探测"到"后压缩微调"

SigmaScale的完整工作流程可以拆成三大阶段,就像给地图做处理有三道工序:先量体裁衣,再熨平折叠,最后修边整形。

第一道工序叫"敏感性探测",目的是为模型的每一层、每一个权重矩阵决定压缩的力度。不同的矩阵对压缩的承受能力不同,就像地图上不同区域的皱褶程度不同,有些地方可以大幅折叠而不丢失信息,有些地方则必须保留更多细节。研究团队预先设定了从10%到90%共九个压缩比例档位,压缩比例越高意味着保留的参数越少。对于每个档位,他们孤立地对模型的每一个注意力权重矩阵和MLP权重矩阵做一次简单的SVD截断,然后测量模型困惑度(一个衡量语言模型预测能力的指标,数值越低越好)的变化。通过这个步骤,研究团队可以知道哪些矩阵对压缩特别敏感,应该保留更高的秩,哪些矩阵压缩容忍度高,可以被大幅削减。

随后,研究团队使用了ASVD论文中提出的二分搜索算法来寻找最优的全局压缩方案:在达到目标整体压缩比例的前提下,找到一组让模型困惑度增加最小的各层截断秩组合。这就像在预算有限的情况下,合理分配给各个图书馆分馆的经费,让整体服务质量下降最少。

第二道工序就是前文详述的"学习缩放矩阵并执行SVD压缩",这是SigmaScale的核心创新所在。每个权重矩阵都独立地训练自己的一对缩放向量dr和dc,学习完成后,缩放向量被用来构造最终的低秩矩阵L和R,以W' = LR的形式替换原来的权重矩阵。

第三道工序是"后压缩微调",相当于地图折叠后的"修边整形"。压缩不可避免地会引入一些误差,导致模型性能下降,后压缩微调的目的是通过在真实数据上继续训练,让模型重新找回失去的性能。研究团队主要使用了Alpaca数据集(一个包含指令跟随样本的数据集)进行一个完整轮次的微调,只优化被压缩修改过的权重矩阵,保持其他部分冻结不动。

此外,研究团队还对比了两种微调范式:一种是传统的监督微调(直接让模型学习正确答案),另一种是知识蒸馏(让一个未压缩的完整模型作为"老师",把其输出的概率分布作为"软标签"指导压缩后的"学生"模型学习)。研究团队的知识蒸馏损失函数将KL散度(衡量两个概率分布差异的指标)和标准交叉熵损失以0.7:0.3的权重组合使用。

四、在真实大模型上的实验:哪些情况下SigmaScale更好

研究团队在两个真实的大型语言模型上进行了验证:meta发布的Llama 3.1 8B Instruct(80亿参数的指令跟随版本)和阿里发布的Qwen3-8B(同样80亿参数)。压缩比例分别设置为保留90%参数、保留75%参数和保留50%参数三个档位,对应的压缩力度从轻到重。

评估指标方面,研究团队使用了两类指标。其一是"困惑度",在Wikitext2测试集(141条、每条2048词的文本)上测量,数值越低越好,反映模型对语言的整体预测能力。其二是五个零样本推理基准测试,分别是OpenBookQA(开放书籍问答)、ARC-Easy(科学推理)、WinoGrande(常识填空)、PIQA(物理常识推理)和HellaSwag(句子补全),这些测试衡量模型在没有任何示例帮助的情况下回答问题的能力,报告的是长度归一化准确率。

对比基准方面,研究团队与SVD-LLM和ASVD+进行了直接比较,并统一了超参数设置以确保公平。

在Llama 3.1 8B Instruct上,保留90%参数时,SigmaScale的困惑度为8.95,ASVD+为8.26,SVD-LLM为13.31,原始未压缩模型为7.21。可以看到,SigmaScale在SVD-LLM基础上有显著改善,但略逊于ASVD+。然而在五个零样本基准上,SigmaScale的综合表现相当出色:ARC-Easy达到78.62%,WinoGrande达到73.32%,PIQA达到79.54%,HellaSwag达到75.98%,这些数字均优于ASVD+,甚至在某些指标上接近未压缩模型的水平。加入知识蒸馏后(SigmaScale KD),困惑度进一步降到8.70,零样本性能也略有提升。

保留75%参数时,情况开始分化。SigmaScale的困惑度为18.48,而ASVD+只有13.67,SVD-LLM为18.15。在困惑度这个指标上,SigmaScale并不占优势。但在零样本基准上,SigmaScale在多个任务上仍然表现更好,OpenBookQA达到36.80%,ARC-Easy达到63.89%,WinoGrande达到62.43%,PIQA达到73.78%,HellaSwag达到61.41%,均高于两个对比方法。知识蒸馏版本将困惑度降至17.90,零样本性能也略有改善。

保留50%参数时,SigmaScale遭遇了明显的困境。Llama 3.1的困惑度飙升至138.63,远高于SVD-LLM的39.83和ASVD+的48.39。这意味着在极端压缩下,SigmaScale学到的缩放无法挽救被丢弃的大量奇异值所携带的信息。尽管知识蒸馏将困惑度从138.63降至121.85,但仍然远远高于对比方法,实用性大打折扣。在零样本基准上,SigmaScale此时也基本失去了优势。

在Qwen3-8B上,整体规律相似但表现略好。保留90%参数时,SigmaScale困惑度为10.89,SVD-LLM为11.51,ASVD+为10.11,基线为9.72,SigmaScale夹在中间。零样本基准上,ARC-Easy达到80.18%,PIQA达到77.75%,HellaSwag达到68.09%,均优于SVD-LLM,部分优于ASVD+。保留75%参数时,SigmaScale困惑度14.68略高于ASVD+的12.34,但零样本基准在ARC-Easy(74.28%)、OpenBookQA(40.40%)等任务上有明显优势。保留50%参数时,Qwen3的情况比Llama 3.1好一些,困惑度31.92虽然高于SVD-LLM的21.84,但在零样本基准ARC-Easy(57.00%)上甚至超过了SVD-LLM(55.51%),说明Qwen3的架构对这种压缩方式的适应性可能更强。

关于知识蒸馏与监督微调的对比,研究结果显示两者差异并不大,与此前某些工作中知识蒸馏大幅优于监督微调的结论不同。这一发现说明,SigmaScale的性能主要来自缩放矩阵学习阶段本身,而非后续的微调方式。

五、内部探秘:缩放究竟对矩阵做了什么

除了宏观的基准测试,研究团队还深入分析了学习到的缩放矩阵在微观层面对权重矩阵结构产生了什么影响。这部分分析揭示了SigmaScale为何有效的底层机制。

研究引入了"有效秩熵"这一概念来衡量权重矩阵"信息有多分散"。可以用图书馆的比喻来理解:一个高有效秩熵的矩阵就像一个馆藏非常均匀分散的图书馆,每本书的重要性都差不多,很难说哪本可以丢;而一个低有效秩熵的矩阵就像一个大部分知识都集中在少数几本核心书籍中的图书馆,其余书可以大量精简而不损失太多。显然,后者更容易被低秩分解压缩,因为少量奇异值就能携带大部分信息。

通过实验观察,研究团队发现:在学习缩放向量dr和dc的过程中,压缩损失和有效秩熵会同步下降。也就是说,熨斗在把地图熨平的同时,还让信息更加集中到少数几条"主轴"上,使得后续的折叠压缩能保留更多核心内容。更重要的是,这两个指标的变化之间存在极强的相关性——对于Llama 3.1的七种模块类型,损失下降与熵下降的相关系数介于0.814到0.923之间,这是非常高的统计相关性。

具体来看各模块的数据。在MLP的三种投影矩阵中,门控投影(gate_proj)平均压缩损失下降了31.1%,有效秩熵下降了2.2%;上行投影(up_proj)损失下降33.7%,熵下降1.8%;下行投影(down_proj)损失下降22.4%,熵下降0.3%。在注意力机制的四种投影中,查询投影(q_proj)的变化最显著,损失下降32.4%,熵下降幅度高达8.5%;键投影(k_proj)损失下降44.3%,熵下降6.3%;值投影(v_proj)损失下降33.7%,熵下降2.5%;输出投影(o_proj)损失下降20.8%,熵下降4.9%。在Qwen3-8B上也观察到了相似的规律,各模块的损失与熵降低相关系数同样在0.862到0.908之间。

从奇异值分布的可视化图中可以看出,经过缩放矩阵变换后,较高端的奇异值会被进一步放大,而较低端的奇异值则略有压缩。这种效果使得奇异值分布变得更加"头重脚轻"——最重要的那一批奇异值更加突出,在截断时能保留更多的信息量。

研究团队还做了一个对比实验,分别只训练行缩放、只训练列缩放,以及同时训练行列缩放,测试对象是Llama 3.1 8B第30层的键值矩阵(在80%截断率下)。结果显示,只训练行缩放时损失为0.2780,只训练列缩放为0.2120,而同时训练行列缩放达到最佳效果0.2060,三种情况下有效秩熵分别从基准的827.88降至817.00、793.00和791.79。此外,先训练行再训练列(序贯方式)与同时联合训练的对比实验表明,联合训练(损失0.206)略优于序贯训练(损失0.215)。这些结果支持了研究团队在最终方法中采用联合行列缩放的设计选择。

六、额外实验:换个数据集做微调会怎样

研究团队还进行了两组额外实验,探索不同的后压缩微调数据对结果的影响。

第一组额外实验使用了一个自制的"Llama-Alpaca"数据集。原始的Alpaca数据集是指令跟随样本,但研究团队用Llama 3.1 8B Instruct模型本身为每条指令生成了三个不同的回答,目的是引入更多样本多样性,同时让微调数据更接近目标模型的输出分布。实验还对比了"每条指令用3个回答训练1轮"和"每条指令用1个回答训练3轮"两种训练方式。结果显示,Llama-Alpaca数据带来了一些小幅改善,在25%压缩率下困惑度有约1分的提升,但在零样本基准上的变化非常有限,整体上是"有帮助但不显著"的改进。在知识蒸馏条件下,75%保留率的模型困惑度最低可以降至15.71(KD=1,即完全依赖知识蒸馏损失)。

第二组额外实验直接用Wikitext训练数据做后压缩微调,采用语言建模(预测下一个词)的方式训练。这种做法在困惑度上带来了一定提升(90%保留率时困惑度降至7.89,非常接近未压缩模型的7.21),但代价是零样本基准性能全面下降——ARC-Easy从77.57%到更低,HellaSwag从75.83%到更低。这说明用Wikitext微调会让模型在"预测维基百科文本"上变得更好,但对通用推理能力有损害,存在明显的过拟合倾向。

七、这项研究的价值边界与未来方向

研究团队对SigmaScale的有效性边界进行了诚实的分析。SigmaScale的核心价值在于改善奇异值截断的质量,帮助保留权重矩阵的主要结构。这意味着它在"轻度到中度压缩"场景下效果最好——当保留90%到75%的参数时,学习到的缩放可以让最重要的奇异值更加突出,减少截断带来的信息损失。

然而,当压缩达到极端程度(保留50%参数)时,保留的低秩子空间可能实在太小,学习缩放已经无法弥补被丢弃的大量奇异方向携带的信息。这就好比无论地图熨得多平,一旦只允许你折到原来1/10的大小,很多细节必然消失。从这个角度看,SigmaScale应该被理解为一种"在保留秩的前提下提升截断质量"的机制,而非一种能够支撑极端低秩压缩的完整解决方案。

在计算开销方面,每次学习迭代都需要完整执行一次SVD,这本身就有O(n?)的计算复杂度,对大矩阵而言代价不小。研究团队指出,探索更快的近似SVD方法(如随机化SVD)是未来改进的一个重要方向。

此外,研究团队坦承,当前对校准数据的选择(Wikitext)可能并不是最优的,这只是为了与对比方法保持一致。探索不同校准数据分布对缩放矩阵学习效果的影响,以及为不同规模和架构的模型寻找更好的初始化策略,都是值得后续探索的方向。研究团队还指出,当前的评估仅限于困惑度和特定零样本基准,对长文本生成和代码任务的效果尚未验证,对不同校准分布的鲁棒性也未经正式测试。

归根结底,SigmaScale的贡献在于提出并验证了一个新的可能性:与其用数学公式一次性推导出缩放矩阵,不如通过梯度优化让机器自己去探索最适合每个权重矩阵结构的缩放方式。这种更灵活的路线在轻中度压缩场景下展现出了与现有最优方法相当甚至更好的零样本任务表现,为SVD基大模型压缩方法的设计提供了一条新思路。

说到底,这项研究讲的是一件很朴实的事:要把一张大地图折叠得更精准,与其靠公式推算熨法,不如让熨斗自己在反复试验中找到最适合这张地图的熨法。对于那些希望在普通设备上运行强大语言模型的开发者和研究者来说,这种灵活性或许正是他们所需要的。有兴趣了解完整技术细节的读者,可以通过arXiv编号2606.07098查阅原文。

Q&A

Q1:SigmaScale和ASVD、SVD-LLM这些方法相比,到底哪个更好?

A:没有绝对的"更好",取决于使用场景。在90%参数保留的轻度压缩场景下,SigmaScale在零样本推理基准上普遍优于SVD-LLM,和ASVD+相比则在某些任务上更好、困惑度上略逊。压缩到75%时,SigmaScale在零样本任务上仍有竞争力,但困惑度已落后于ASVD+。极端压缩到50%时,SigmaScale明显不如对比方法,不适合这种场景。

Q2:大语言模型压缩后还能正常用吗,效果会差多少?

A:这取决于压缩力度。轻度压缩(保留90%参数)时,SigmaScale压缩后的Llama 3.1在ARC-Easy推理任务上准确率从79.63%降至约78%,损失极小,日常使用基本感受不到差别。中度压缩(保留75%)时性能有所下降,但仍可用于对精度要求不高的场景。极端压缩(保留50%)则会导致较大性能损失,慎用于对准确性要求较高的任务。

Q3:SigmaScale训练缩放矩阵需要多少算力,普通研究者能用吗?

A:目前计算成本较高,每个实验条件(一个模型加一个压缩比例)在两张Nvidia H100 GPU上平均需要约45.5小时,属于需要较高算力的研究级方法。后续的后压缩微调只需两张AMD MI300X GPU约2小时,成本合理。对于没有高端GPU集群的普通研究者,短期内复现完整实验存在一定门槛,但随着近似SVD方法的引入,未来计算成本有望大幅降低。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新