在大模型微调实践中,SFT(监督微调)几乎成为主流流程的一部分,被广泛应用于各类下游任务和专用场景。比如,在医疗领域,研究人员往往会用领域专属数据对大模型进行微调,从而显著提升模型在该领域特定任务上的表现。
然而,问题随之而来:SFT 是否会让模型 “遗忘” 原本的通用能力?过去的研究中,不少文献指出,领域微调固然能带来专用性能的提升,但代价是模型在数学推理、代码生成、指令跟随等通用 benchmark 上出现显著退化。这种现象被广泛称为 “灾难性遗忘”。然而,这一长期流传的看法或许值得重新审视。
来自 UIUC、Amazon、UT Austin 以及 University at Buffalo 的研究团队最新发布的一项工作就给出了不同的答案。研究表明,领域特定的 SFT 并不总是会严重削弱模型的通用能力。相反,在训练中采用更小的学习率,模型就可能在两方面取得平衡:
在通用任务上的能力遗忘被大幅缓解;在目标领域上的表现依然与大学习率相当。
换句话说,遗忘问题可能更多源于训练策略的选择,而不是单单 SFT 这一范式本身。
论文标题:SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs论文地址:https://arxiv.org/pdf/2509.20758
一句话概括:稍微更小的学习率能大幅度缓解遗忘,TALR 则是进一步平衡的利器。
实验细节:重新审视学习率对 SFT 带来的影响
实验设置
任务与数据。 领域侧选择两个现实强相关的场景和领域专属数据集:MedCalc 和 ESCI。选择这两个数据集的原因在于它们代表了开源 LLM 在现实应用中表现最薄弱的场景,因此也是最有必要做 domain-specific SFT 的场合。
MedCalc(医疗推理):10.1k 训练 / 1.05k 测试,每条样本含患者笔记与临床指令;SFT 学习的目标为 “推理过程(CoT)+ 最终答案”。指标用 Accuracy。ESCI(电商商品多分类问题):49k 训练 / 10k 测试,四类标签(Exact/Substitute/Complement/Irrelevant)。设置分 w/ CoT(推理 + 标签)与 w/o CoT(仅标签)两种;主指标用 Balanced Accuracy (BACC) 以应对类别不均衡。
模型与评测
选取多种规模 / 家族的开源 LLM 做实验:Qwen3-8B、Qwen2.5-7B、Qwen2.5-3B、Qwen3-4B、Gemma3-4B、Gemma3-1B 的 Instruct 模型。统一采用监督微调(SFT),核心控制变量是学习率(lr),取 1e-6 / 5e-6 / 2e-5 三档,其他训练超参遵循常规 SFT 实践。
SFT 完成后,在不同 lr 下先以目标领域指标挑选最佳 checkpoint,再用IFeval(指令跟随)/ GSM8K(数学)/ Humaneval(代码)进行 “通用能力” 评测,报告三者的均值作为总分(General performance)。这一流程贴近 “实际落地优先领域效果、随后回看通用能力” 的场景。
实验结果
实验结果如图所示。每个点表示某一 lr 下的(Domain performance,General performance)二元坐标;灰色 “Init” 星形代表微调前的模型性能。
研究发现一:更小的学习率带来更优折中
在 MedCalc 和 ESCI 上,使用更小的学习率(如 1e-6)时,模型能同时保持目标领域的强性能,并显著减轻通用能力的下降。换句话说,灾难性遗忘可以通过学习率控制来大幅度缓解。
研究发现二:对于分类问题,仅分类标签监督放宽了学习率约束
当训练目标只包含最终标签(不需要中间推理链)时,实现理想折中的学习率范围会更宽。在 ESCI (w/o CoT) 的设定下,学习率 5e-6 甚至能表现得和 1e-6 一样好,这与其他情况形成鲜明对比。
作者进一步在大规模数据集 metaMathQA 上进行实验。metaMathQA 是一个大规模数学推理数据集,包含395k 条训练样本。实验采用DeepSeek-Coder-7B作为基础模型。这一模型在数学推理任务上原本表现相对薄弱,因此是一个理想的测试对象。
在训练过程中,研究团队使用 metaMathQA 进行监督微调,并将 GSM8K 作为目标领域的评测基准。结果显示,即便在如此大规模的数据条件下,结论依然保持一致:更小的学习率(在这里 5e-6) 能够在保持数学领域性能的同时(相比于大学习率 2e-5),显著缓解模型在原来擅长的 Coding 能力的退化。换句话说,论文中提出的发现是同样适用于大规模任务与模型的普适规律。
注:这里的学习率大小都是相对的,不同 task 的能够达到最佳平衡的学习率也不同,比如 MedCalc 和 ESCI 是 1e-6,而 metaMathQA 是 5e-6。在对应的数据集和最佳学习率下,它们都会尽可能抑制通用能力的遗忘,并且取得和更大学习率相匹敌的下游性能。
理论分析
为了更好地解释这些现象,作者团队进一步从理论分析的角度寻找了支撑性的 insight。
他们首先得到了一个关键结论:较小的学习率能够严格收紧通用性能下降的上界。换句话说,使用更小的分布更新步长意味着模型在提升目标领域表现的同时,更有保障地保留住已有的通用能力。这正好与实验中的 Finding 1 相呼应。
紧接着,团队又给出另一条理论解释:当训练目标只包含最终标签时,模型在每个样本中遇到的 “难 token” 数量减少,从而拓宽了可接受的学习率范围。这也就解释了实验中 ESCI (w/o CoT) 的现象 —— 为什么在没有推理链的情况下,较大的学习率(5e-6) 依然能够保持良好的折中效果。这对应着实验中的 Finding 2。
小结与反思
论文在实证和理论分析的基础上指出,小学习率虽然能显著减轻通用能力的下降,但并不能完全消除这一问题。在某些场景下,即便采用了更小的学习率,仍然会观察到一定程度的通用能力的性能退化。同时,较小的学习率虽然在大多数情况下领域性能与较大学习率相差无几,但在某些任务里差距依然不可忽视。这意味着,如果应用场景里必须优先保证目标领域的最高性能,研究者仍然可能选择使用较大的学习率。但随之而来的问题是:更大的学习率几乎必然带来更严重的通用性能下降。因此,开发额外的缓解策略,尤其是在大学习率条件下抑制遗忘,显得同样重要。
为此,作者团队深入探索更佳的策略。从理论分析进一步得到启发,作者发现导致遗忘的关键因素之一是hard tokens(低概率 tokens)—— 它们在训练中的更新幅度往往远大于 easy token,从而对通用能力退化有较大影响。这一观察自然引出了新的思路:可以设计 “token 自适应的 reweighting 策略”,在训练时直接降低 hard token 的损失权重,从而抑制它们对通用能力的过度侵蚀。
Token 自适应 Loss 重加权 (TALR)
方法细节
前面的理论分析已经指出,灾难性遗忘的一个重要来源在于hard token(低概率 token)。一个自然的思路是:在训练时降低这些 hard token 的权重。但问题在于,如何自动识别 hard token,并动态决定它们应该被削弱多少? 如果仅仅依赖固定阈值或手工设定参数,不仅缺乏普适性,也难以适配不同模型与任务。
为了解决这个问题,作者团队提出了TALR(Token-Adaptive Loss Reweighting),即通过建立一个约束优化问题进行求解来获得自适应的权重。其核心思想是:根据每个 token 的预测概率,自适应地分配权重;置信度低(概率小)的 token → 权重更小,从而削弱这些 hard token 在训练中的过度梯度贡献。
这种方法通过建立约束优化问题实现,可以得到解析解,训练时在每个 batch 都会动态更新权重,始终与模型的置信度保持一致。
其中,τ 的选取也是自适应的,由在每个 batch 中依据序列平均损失的中位数动态确定。作者指出,这样的自适应 τ 的选取可以取得一致比较好的结果。若固定温度系数 τ 比如 τ=1,则模型会无法学习领域的知识进而在 domain performance 上表现很差。基于此,整体的算法流程如下:
实验结果
研究团队在MedCalc 基准上,系统比较了多种具有代表性的灾难性遗忘缓解策略,包括L2 正则化、LoRA、Wise-FT(模型平均)、FLOW,以及他们新提出的TALR方法。实验在两种学习率设定下展开:较小学习率 (1e-6) 和 较大学习率 (5e-6)
小学习率 (1e-6).结果显示,大多数方法在这一设定下表现接近,几乎都聚集在图像右上区域。这说明单纯降低学习率本身,已经能够在保持领域性能的同时,有效缓解通用能力退化。在小学率下,TALR 与其他方法相比差距不大,但依然展现出更稳定、更平滑的折中表现。
大学习率 (5e-6).当学习率升高时,通用性能下降的幅度明显加剧,几乎所有方法的点位整体下移。在这种更具挑战性的情况下,TALR 的优势逐渐凸显:无论在 Qwen2.5-3B 还是 Qwen3-4B 模型上,TALR 都能够实现更优的 Pareto 前沿位置,在保持领域增益的同时,显著减少通用性能的损失。
小结:整体来看,当条件允许时,小学习率本身已能带来可靠的折中效果;但在必须依赖较大学习率以进一步提升领域性能时,TALR 展现出显著优势。然而,现有方法仍无法彻底消除高学习率带来的性能退化,这一现象也揭示出未来研究的重要方向 —— 如何探索更强大的缓解策略,以在大学习率下兼顾领域能力和通用性能。
Token 层面的深入分析
作者进一步从 token-level 对 SFT 进行分析,首先是计算 model 对每个训练的 token 的置信度(概率),计算如下。
多数 token 容易,少数 “难点” 成瓶颈
在更细粒度的 token 层面,研究团队进一步揭示了 SFT 过程中隐藏的现象。结果显示,对于一个只能取得不到 10% 准确率的模型,大多数训练数据中的 token 对模型来说学习难度并不大。换句话说,模型往往能够以较高置信度预测这些 token,尤其是在推理链条的中后段,一旦上下文信息积累到位,LLM 很容易继续生成后续 token。
相比较而言,性能非常差的归因于一小部分 “hard tokens”—— 即模型在预测时置信度较低的 token。这类 token 通常出现在序列的早期位置,或是与特定领域的专业概念相关。例如,在 MedCalc 数据集中,涉及临床单位换算的 token 往往被模型赋予较低概率,这可能是因为相关知识在预训练数据中覆盖不足。这些 “hard tokens” 数量稀少,但却可能成为决定性能的关键瓶颈。
统计分析进一步验证了这一趋势:从箱线图中,对于跨多个模型变体的实验,大部分 token 的概率分布上四分位接近 1,说明模型对大多数 token 的学习信心都很高。但与此同时,模型在 MedCalc 这类专用任务上的零样本表现依旧偏低,凸显了少数高难度 token 的重要性。
TALR 的训练动态:隐含 “课程式” 学习
更有趣的是,研究人员发现 TALR 在训练中自发呈现出一种类似 “课程学习(curriculum learning)” 的机制。具体来说,TALR 会减轻置信度过低 token 的梯度更新幅度,优先让模型通过置信度较高的 token 来驱动优化。随着训练逐步推进,越来越多之前被视为 “难点” 的 token 被纳入大幅度更新范围,训练过程由 “易” 到 “难”,自然形成了一种动态的学习路径。这一发现表明,TALR 不仅能在整体上缓解遗忘,还能在细节上为模型学习构建更合理的节奏,使其逐步掌握领域内的关键知识点。
结论与展望
自从 DeepSeek-R1 火了之后,业界普遍兴起了一股 “RL can solve everything” 的浪潮,很多人认为强化学习才是大模型能力提升的终极解法,而 SFT(监督微调)则显得不那么重要,甚至逐渐被忽视。事实上,这种看法忽略了一个根基性的事实:RL 的百花齐放,本质上是建立在高质量 SFT 打下的坚实基础之上的。没有强大的 SFT,RL 很难发挥出现在这样的效果。换句话说,SFT 依然是一切的基石。
在这项研究中,UIUC 和 Amazon 团队提供了实证和理论的双重证据,挑战了 “领域 SFT 会显著损害通用能力” 的普遍认知。通过系统化实验,他们发现:更小的学习率能够带来更优的性能折中,既能保持通用能力,又能提升目标领域表现。在此基础上,团队还提出了 TALR(Token-Adaptive Loss Reweighting),进一步缓解了灾难性遗忘问题。
展望未来,研究人员也指出,没有单一方法可以彻底解决 SFT 的遗忘问题。小学习率与 TALR 是有效的第一步,但更广泛的数据集、更大规模模型(如 MoE 架构)、以及更系统的理论指导,都有待深入探索。
同时,这项工作也为更好的领域适配提供了重要启发。例如在医学场景中,很多专门化的医疗 LLM 反而不如基础模型,这意味着如何在注入领域知识的同时保留基础模型的通用能力,是未来值得关注的关键方向。
此外,论文还提醒业界:SFT 在 RL 之前的 “预热” 阶段同样至关重要。如果过度 SFT,模型可能会过早稳定化,削弱探索能力,从而影响后续 RL 的效果。因此,如何在保持多样性的同时抑制遗忘,将是下一阶段值得深入研究的重要课题。
总的来说,这项研究不仅重申了 SFT 的价值,也为大模型未来的微调与适配提供了新的思路:RL 可能是显学,锦上添花;但 SFT 仍然是地基,没有它就难以稳如磐石。