![]()
这项研究来自meta旗下的基础人工智能研究团队(FAIR at meta)以及纽约大学柯朗研究所,于2026年4月9日以预印本形式发布,编号为arXiv:2604.08706v1。感兴趣的读者可以通过这个编号在arXiv平台上查阅完整论文。
**一、一个反直觉的问题:旧菜热一热,味道更好?**
在饭店的厨房里,有一条铁律:新鲜出炉的菜肴才是最好的,绝不能把隔夜的菜端给客人。这条"铁律"在人工智能训练领域同样盛行了很多年——研究者们普遍相信,训练AI必须使用"新鲜"数据,用过就扔,绝不重复使用。然而,meta的研究团队偏偏要打破这个"常识"。他们用大量实验证明,在特定条件下,"把旧菜热一热"不仅不会让味道变差,反而能节省高达40%的能源消耗,同时保持甚至略微提升最终的菜肴品质。
这项研究聚焦于一个非常实际的问题:训练大型语言模型(也就是像ChatGPT这类能理解和生成语言的AI)的过程中,有一个步骤叫做"强化学习",它让AI通过不断尝试、犯错、修正来学习。这个过程中,AI需要持续产生大量的"练习素材"(专业术语叫"轨迹"或"rollout",可以理解为AI尝试回答问题时生成的一整段文字),然后用这些素材来调整自己的"思路"。问题在于,产生这些练习素材的代价极其高昂——在最顶尖的AI训练流水线中,光是生成这些素材就要消耗超过80%的计算资源,相当于整个训练过程中八成的电费都花在了"出题考试"上,而非"分析错误、吸取教训"。更要命的是,当前主流做法是每次考试结束后就把试卷直接扔掉,下次考试重新出题。这种"用完即弃"的方式,研究团队将其称为"生成即丢弃"模式。
meta研究团队提出的解决方案,正是本文标题中那个听起来简单却蕴含深意的技巧——经验回放(Experience Replay)。简单说就是:把做过的练习题保存在一个"题库"(专业上称为"重放缓冲区",replay buffer)里,下次训练时可以反复从题库中抽题来用,而不必每次都重新生成新题目。这个想法在游戏AI领域早已是成熟技术,谷歌DeepMind著名的下棋AI就用到了类似思路,但在大语言模型的强化学习训练中,这个方法却被长期忽视。本次研究就是要系统地搞清楚:这个"题库"到底应该怎么设计?什么情况下用有益?什么情况下反而有害?
**二、题库里的练习题:存多久才算"过期"?**
要理解这项研究的核心,需要先搞清楚一个关键矛盾。AI在强化学习过程中,其"思维方式"(也就是模型的参数)是在不断进化的。用一周前还是新手水平时生成的练习素材,来训练今天已经有所进步的AI,这些素材的参考价值必然会打折扣——就像用小学教材来辅导高中生做题,多少有些不合时宜。研究团队把这种"练习素材与当前AI水平之间的代差"称为"过期度"或"离策略程度"(off-policiness)。
这个"过期度"是整个研究的核心变量。过期度越高,意味着题库里的练习素材是很久以前一个"还没那么聪明"的AI版本生成的,用这些素材训练可能会引入错误的信号。但如果完全不用题库,就意味着每次训练都要重新生成新素材,代价极高。于是,一个三角形的权衡关系就浮现出来了:计算效率、数据新鲜度(低过期度),以及数据多样性,三者之间存在此消彼长的关系。
题库的大小(保存多少题目)和题库的使用方式(同一道题被反复做多少次)会同时影响这三个维度。题库越大,存的题越多,题目的"过期度"平均就越高(因为最老的题可能是很久以前的AI生成的),但每次训练时从更大的题库里随机抽题,不容易连续抽到同一道题,这在某种程度上增加了"局部多样性"。反复使用同一道题的次数(研究团队称之为"重放比率",replay ratio)越高,计算效率越高,但训练内容越单调,AI的学习可能受到影响。
研究团队还特别区分了两种不同层次的"多样性"。一种是"全局多样性",指的是在整个训练过程中,同一道题平均被使用了多少次。另一种是"局部多样性",指的是同一道题在短时间内被连续反复使用的程度——如果连续很多步训练用的都是同一道题,AI就会陷入"死记硬背"的困境,学习效果极差。研究团队认为,局部多样性的损失比全局多样性的损失危害更大。而增大题库规模,恰好可以在不增加全局重复率的前提下,降低局部重复的概率——因为题库越大,每次随机抽题时,连续抽到同一道题的概率自然越低。
**三、一个精妙的数学框架:最优题库规模的计算公式**
研究团队不满足于定性的直觉,他们建立了一套严格的数学理论来量化这个权衡关系。这套理论基于一个标准的数学框架——非凸随机优化(可以理解为:在一个充满山峰和山谷的复杂地形中,寻找最低点的数学方法)。
在这个框架中,研究团队做了三个核心假设。第一个假设描述了"过期题目"对训练信号的影响:一道题越旧,它给出的训练信号偏差就越大,偏差的程度与当前AI和生成该题时AI的"差距"成正比。第二个假设描述了训练信号的"噪声":随着题目越来越旧,训练信号的波动性也会增加,因为用过时的AI生成的题目来纠正现在的AI,就好比用一把误差越来越大的尺子来量身体,测量值会越来越不可靠。第三个假设描述了题目之间的"关联性":从题库中抽出来的不同题目,并不是完全独立的——因为这些题目都曾经参与过之前的训练,对当前AI的"思维方式"有过贡献,所以它们之间存在一定的统计关联,关联强度与两道题生成时间的间隔成正比,与题库的大小成反比。
基于这三个假设,研究团队推导出了一个核心定理,描述了在给定计算预算下,怎样的题库设计(题库规模与每次新增题目量的比值,以及训练批次大小与每次新增题目量的比值)能够最优地平衡效率与准确性。这个最优设计具有直观的物理意义:当生成练习素材的计算成本(用参数μ表示,可以理解为"出题成本"相对于"批改试卷成本"的倍数)越高时,最优方案就越倾向于使用更大的题库、更高的重放比率;反之,当出题成本很低时,就没必要建题库,直接用新题更好。研究团队还在幂律方差假设下给出了最优题库深度和重放比率的闭合解析公式,让这套理论具有实际的工程指导价值。
在实验中,研究团队测量了不同模型下的μ值:对于参数量为0.6亿的小模型Qwen3-0.6B,μ约为6.84,意味着生成一批练习素材所需的计算量大约是训练一步所需计算量的6.84倍;对于参数量更大的7亿参数模型Qwen2.5-7B,μ约为5.28。这些数值都远大于1,说明"出题"确实远比"批改试卷"昂贵,使用题库的理论依据相当充分。
**四、现实中的训练流水线:推理工人与训练工人的分工**
理论有了,还需要搞清楚在实际的AI训练系统中如何落地。研究团队的实验基于一种叫做"异步训练"的架构。在这种架构下,GPU(专门用于AI计算的图形处理器)被分成两组:一组叫"推理工人"(inference workers),专门负责生成练习素材;另一组叫"训练工人"(trainers),专门负责根据练习素材调整AI的"思路"。两组GPU各自独立运作,不需要等对方完成才能继续工作。
在没有题库的传统做法中,推理工人生成的素材通过一个"传送队列"传给训练工人,训练工人用完一批就丢弃,等下一批来。这里有一个最优比例μ:如果出题成本是批改成本的μ倍,就需要配置μ个推理工人对应1个训练工人,才能让两组工人都不闲置,整个系统效率最高。
引入题库后,推理工人不再把素材传给队列,而是放进题库;训练工人随时从题库中自由抽取,不受推理工人速度的制约。这样,即使推理工人只有一两个,训练工人也可以持续不断地工作,因为题库里有足够的存货。计算效率的提升,通过一个叫"计算比率γ"的指标来衡量:γ等于使用题库配置下每次参数更新的计算成本,除以最优无题库配置下的成本。对于Qwen2.5-7B(μ=5.28),当推理工人数量W=6、训练工人数量T=2时,γ=0.65,即每次参数更新只需要原来65%的计算量;而当W=4、T=4时,γ低至0.32,即每次更新只需原来32%的计算量。
此外,题库还带来了一个额外的工程收益:在异步训练中,推理工人有时会因为训练工人处理不过来而"堵塞",训练工人有时会因为素材不够而"空转",这种不均衡会导致整体效率下降。题库通过解耦生产和消费,充当了一个"缓冲水库",让两组工人都能保持满负荷运转,进一步提升了实际的墙上时钟速度(wall-time speed),观测到的实际加速效果甚至超过了理论计算的计算比率γ所预期的提升。
**五、实验结果:题库的大小和使用频率如何影响AI的最终水平?**
研究团队在Qwen3-0.6B和Qwen2.5-7B两个模型上,使用OpenR1-Math-220k数学推理数据集进行了大量实验,用MATH基准测试来评估模型的最终数学解题准确率。
对于小模型Qwen3-0.6B,研究团队系统测试了从64到559,872不等的多种题库规模,以及(W,T)=(6,2)、(5,3)、(4,4)三种不同的工人比例配置,累计运行了超过240个独立实验种子。他们发现了几个规律性的现象。
首先,所有训练曲线——无论是否使用题库——都遵循一个先升后降的模式:准确率先慢慢爬升到一个顶峰,然后开始下滑。这是强化学习训练语言模型时常见的现象,下滑的原因是模型在训练集上过拟合,最终崩溃成胡乱输出的状态。观察训练集准确率的曲线可以看到,训练集准确率比测试集更晚达到峰值,然后也跟着崩溃,印证了这一诊断。
其次,增大题库规模有两个显著的效果:它会减慢训练的速度(每个计算单位的进步变小),但同时会稳定训练过程,让模型能到达更高的准确率峰值,且崩溃来得更慢。研究团队假设,重用来自"旧版AI"生成的素材,相当于在训练目标上加了一个"正则化"效果,防止模型过度追求当前版本AI生成的素材中的特定模式。对于越大的模型,这种稳定化效果越不明显,因为大模型本来就更难过拟合。
第三,题库对于模型的"输出多样性"有正面影响。在AI安全和实用性领域,有一个叫做"pass@k"的指标,衡量的是:如果让AI对同一道题尝试k次,至少有一次答对的概率。pass@1就是一次就答对的概率,pass@32就是32次中至少答对一次的概率。研究发现,使用题库不仅提升了pass@1(一次就答对),而且对pass@k中k越大的指标,提升效果越明显。这意味着题库帮助模型保留了更丰富的"解题思路多样性",而不是让模型在单一思路上越走越窄。这个发现具有重要的实际意义,因为研究界普遍担忧强化学习训练会压缩模型的输出多样性,而题库恰好在一定程度上对抗了这个趋势。
研究团队还做了一个特别精心设计的对照实验,来确认这些收益不是因为题库配置碰巧找到了一个更好的超参数设置。他们对两个条件——使用题库和不使用题库——分别进行了覆盖多个学习率的全面超参数搜索,对每个计算预算下各自取最优配置,绘制出两条"效率前沿曲线"。结果显示,在所有计算预算水平下,最优题库配置的曲线始终高于最优无题库配置的曲线,说明题库的优势不依赖于特定的超参数巧合。
对于更大的Qwen2.5-7B模型,在题库规模84、训练配置(W,T)=(6,2)(即每次参数更新只花原来65%的计算量)的设置下,使用题库的模型不仅在所有计算预算水平下精度均高于不用题库的基线,而且基线模型还多次出现不稳定崩溃的现象,而题库版本的训练则稳定得多。这一发现在Qwen3-8B(用于编程证明任务)和Llama 3.2 3B上也得到了验证,说明题库的好处具有跨模型、跨任务的普遍性。
**六、更精细的题库设计:给"优质旧题"开小灶**
在验证了基础题库方案的有效性后,研究团队还探索了两种更精细的设计,看能否进一步提升效果。
第一种改进叫做"正偏向采样"(positive-bias sampling)。普通题库的规则很简单:保留最新的N道题,从中随机抽取。但研究团队注意到,正确解答题目的那些练习素材,可能比错误解答的素材有更持久的价值——正确答案的"有效期"更长,即使是一个老版本的AI生成的正确解答,对训练现在的AI依然有参考价值。基于这个直觉,他们提出了一个混合题库策略:题库的一部分(比例为1-δ)仍然按时间顺序保留最新的素材;另一部分(比例为δ)则专门保留最新的"正确解答"素材,并确保这些正确素材不与前一部分重复。训练时从两部分合并的题库中统一随机抽取。实验结果表明,这种方式确实能够提升训练效果,δ取0.2或0.5时都有明显改善。
第二种改进是更换训练损失函数。标准的GRPO损失函数(可以理解为AI用来评判自己表现的"评分规则")包含一个重要性采样修正项,其作用是补偿由于"题目过期"导致的分布偏差。然而,重要性采样在过期度较高时会产生很大的方差(测量值非常不稳定),而且这种修正仅能纠正"边际分布"的偏差,无法处理题库带来的更深层的统计依赖关系(即来自同一批次的不同练习素材之间的相关性)。研究团队改用了他们自己开发的AsymRE损失函数,这个函数不包含重要性采样修正,从而回避了高方差和无法修正深层依赖的问题。实验显示,AsymRE在题库设置下的表现显著优于GRPO,尤其在高过期度条件下优势更为明显。两种改进——正偏向采样和AsymRE——结合使用,效果尤为突出。
**七、说到底,这件事意味着什么?**
归根结底,这项研究做了一件听起来简单但影响深远的事:把强化学习领域几十年前就成熟的经验回放技术,用严谨的理论分析和大规模实验,移植到了大语言模型的后训练流程中,并给出了清晰的设计指南。
这对普通人意味着什么?当你在使用AI助手时,它能够解答数学题、写代码、分析问题,背后的训练过程就用到了强化学习。而强化学习的训练成本,最终会转化为AI公司的运营成本,继而影响AI服务的价格和普及速度。如果训练一个同等能力的AI只需要60%的计算资源,在保持相同训练预算的前提下,可以训练出能力更强的模型;或者在保持相同模型能力的前提下,可以大幅降低训练成本。这两个方向都对AI的未来发展具有实际意义。
当然,研究团队也坦承了这项工作的局限性。目前的实验规模限于0.6B到8B参数量的模型,在更大的前沿模型(如数百亿甚至千亿参数)上,这套方案是否同样有效,还有待验证。此外,即便在现有规模下,题库规模和重放比率的最优设置,仍然依赖于一个模型特定的μ值,实际部署时需要针对具体的模型和硬件环境进行测量和调优。
有一个值得深思的问题是:如果连"反复使用旧练习题"这样听起来有悖常识的做法,在数学上都能被证明是更优的策略,那么在AI训练领域,还有多少类似的"常识性偏见"正在悄悄地浪费我们的计算资源?这大概是这项研究留给整个领域最值得追问的问题。感兴趣深入了解的读者,可以通过arXiv编号2604.08706查阅这篇完整论文。
Q&A
Q1:经验回放(experience replay)在大语言模型训练中具体是怎么工作的?
A:在大语言模型的强化学习训练中,经验回放的做法是:AI每次生成练习素材后,不直接用完就扔,而是把它们存入一个"题库"(重放缓冲区)。训练时,从题库中随机抽取素材来调整模型参数,同一份素材可以被多次使用。题库采用先进先出策略,最旧的素材会被新素材替换。这样一来,生成素材和使用素材这两个步骤就解耦了,可以用更少的推理GPU来匹配更多的训练GPU,从而大幅降低整体计算消耗。
Q2:使用题库反复训练同样的数据,会不会让AI越练越差?
A:会有一定风险,但研究发现关键在于题库规模的设置。如果题库太小、同一道题被连续高频重复使用(局部多样性低),训练效果确实会下降。但如果题库足够大,虽然同一道题全局上会被多次使用,但连续被抽到的概率很低,局部多样性得以保持。适中规模的题库反而能稳定训练、防止模型崩溃,并保留输出的多样性,在大多数计算预算水平下优于不使用题库的方案。
Q3:计算比率γ是怎么算出来的,它说明了什么问题?
A:计算比率γ等于"使用题库时每次参数更新的计算成本"除以"不用题库的最优配置下的计算成本",公式是γ=(1+W/T)/(1+μ),其中W是推理工人GPU数量,T是训练工人GPU数量,μ是生成一批素材的成本相对于训练一步成本的倍数。γ越小,说明题库方案越省钱。对于Qwen2.5-7B(μ=5.28),当W=4、T=4时,γ=0.32,意味着每次参数更新只需原来32%的计算量,相当于节省了68%的计算开销。


京公网安备 11011402013531号