当前位置: 首页 » 资讯 » 新科技 » 正文

Meta超级智能实验室又发论文,模型混一混,性能直接SOTA

IP属地 中国·北京 机器之心Pro 时间:2025-11-21 14:16:25



机器之心报道

编辑:陈陈

模型也要学会取长补短。

大语言模型(LLM)在众多领域展现出卓越的能力,但它们的训练依然高度依赖算力和时间,需要庞大的计算资源以及精细的训练流程设计。

模型 Souping(Model Souping) ,即对同一架构的多个模型进行权重平均,形成一个新的、更强的模型。相比训练一个庞大的统一模型,souping 更轻量、成本更低,同时能够融合模型的互补能力。

然而,传统的模型 souping 方式通常采用简单的均匀平均,即把所有候选模型的参数直接做等权融合。

本文中,来自 meta、伦敦大学学院机构的研究者提出类专家 Soup(Soup Of Category Experts, SoCE),这是一种基于模型 Souping 的系统化方法,它利用基准测试的类别构成来挑选最优模型候选,并通过非均匀加权平均来最大化整体性能。

与以往均匀平均方法不同,本文基于一个关键观察:不同基准类别之间的模型性能往往呈现弱相关性。因此,SoCE 能够为每个弱相关的类别簇挑选对应的专家模型,并通过优化的加权方式(而非统一权重)将它们组合起来。

实验结果表明,SoCE 大大提升了模型效果与稳健性,包括在多语言能力、工具调用、数学推理等任务上,并在 Berkeley Function Calling 排行榜上取得了 SOTA 成绩。



论文地址:https://arxiv.org/pdf/2511.13254项目地址:https://github.com/facebookresearch/llm_souping?tab=readme-ov-file论文标题:Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

方法介绍

SoCE 基于这样一个洞见:基准测试中不同类别的模型表现往往呈现高度异质的相关结构。不同模型在不同类别上展现出各自的专长,一些类别之间强相关,而另一些类别之间相关性较弱,甚至可能呈负相关。

研究者为了说明这一现象,他们选择分析 Berkeley Function Calling Leaderboard(BFCL)。BFCL 包含多种不同类型的函数调用任务,例如:多轮函数调用。这些任务分别测试模型不同方面的能力,因此非常适合用来观察类别间的能力相关性。

他们制作了一张相关性热力图(correlation heatmap),颜色越深代表相关性越强。



强相关(深绿色区域):多轮任务之间的相关性极高,介于 0.96 到 0.98 之间。这意味着一个模型如果在某个多轮任务上表现优秀,它通常在所有多轮相关场景中都能保持同样的优势。

弱相关甚至负相关(浅绿色区域):二者之间的相关性仅 0.07。这几乎意味着它们是两个完全不同的能力维度。一个模型即便在结构化的多轮场景中表现良好,也并不保证在真实用户采集的开放式函数调用任务中表现可靠。

SoCE 利用上述相关性模式,来有策略地选择并加权模型进行 souping(参数融合)。其核心思想是:为每个弱相关类别簇找到最擅长该类别的专家模型,并通过优化后的加权平均将它们融合,从而结合模型间互补的能力。

算法 1 对整个流程进行了形式化描述,包含四个关键步骤:

相关性分析:识别类别之间的弱相关(或不相关)类别对;专家模型选择:根据性能排名,为每个类别挑选表现最好的专家模型;权重优化:寻找能最大化整体性能的加权方案;加权模型 souping:根据优化后的权重对模型进行加权融合,得到最终模型。

权重优化阶段,在一组统一的权重范围内进行搜索。具体而言,对每个模型的权重从 0.1 到 0.9,以 0.1 为步长,遍历所有可能的权重组合。



实验

作者进行了大量实验,以评估 SoCE 在多个维度上的有效性。

作者在 BFCL 基准上对两组模型进行了对比,分别是 700 亿参数和 80 亿参数的密集模型。

对于 70B 模型,他们从官方排行榜中筛选出 4 个候选模型,并在这些模型上应用了 SoCE 方法。结果显示,SoCE 在 BFCL 上取得了 80.68% 的准确率,创造了新的 SOTA,相比此前表现最佳的单模型 xLAM-2-70b-fc-r(78.56%)提升了 2.7%。

最佳模型配置由 xLAM-2-70b-fc-r、CoALM-70B 和 watt-tool-70B 组成,它们的最优权重分别为 0.5、0.2 和 0.3。

对于 8B 模型,SoCE 达到了 76.50% 的准确率,超越了此前 8B 模型 xLAM-2-8b-fc-r,相对提升达 5.7%。其最优权重配置为:

xLAM-2-8b-fc-r:0.7ToolACE-2-8B:0.2watt-tool-8B:0.1

作者还进行了消融研究,结果都显示,无论是 70B 还是 8B,SoCE 的模型选择步骤都带来了性能提升。

表 2a 展示了模型在 MGSM(Multilingual Grade School Math)基准上的实验结果。SoCE 的表现优于所有候选模型以及平均 souping。



随后,作者在 MGSM、BFCL、FLORES-36 等多个基准上,对大量候选模型的 checkpoint 进行了系统的 model souping 实验与评估,并据此得出以下关键结论:

类别间线性相关性在模型 Souping 之后显著提升:如图 2 所示。



各类别整体性能稳定提升:例如,对于在 Llama-70B 基础上微调的 checkpoint,在 37 项模型 Souping 实验中的 35 项中,Soup 后的候选模型在 36 个类别中有超过 20 个类别的指标得分更高,并且在所有类别上的净性能增益均为正(见图 5)。



图 3a 和 3b 所示,SoCE 能够找到不同类别的专长模型,从而带来显著性能提升。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。