当前位置: 首页 » 资讯 » 新科技 » 正文

上交大与XYZ AI Lab联手破解AI"功过难辨"难题

IP属地 中国·北京 科技行者 时间:2026-06-15 22:12:08

这项由上海交通大学人工智能学院与XYZ AI Lab联合开展的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.09348,感兴趣的读者可通过该编号查询完整论文。


当你雇了一个助手帮你去图书馆查资料,两小时后他回来交给你一份报告。如果报告写得很好,你会夸他"干得不错";如果报告一团糟,你会说"你搞砸了"。但问题是,这两小时里他做了几十件事——选了哪几个书架、问了哪位管理员、翻了哪些目录、记了哪些笔记——你只知道最终结果好不好,却完全不知道这几十步里哪些是关键神来之笔、哪些是白费功夫。更麻烦的是,一份成功的报告里可能夹杂着几次走错书架的弯路,而一份失败的报告里也可能包含几条真正有价值的线索。这正是今天要介绍的研究所面对的核心难题,研究者们将其称为"长程信用分配问题"。

为了解决这个困扰AI训练领域多年的难题,研究团队提出了一套名为PBSD(Privileged Bayesian Self-Distillation,特权贝叶斯自蒸馏)的方法,其核心思路优雅而精妙:通过一种数学工具,让AI系统在回顾自己走过的每一步时,能够判断"这一步究竟是帮了我最终得到正确答案,还是拖了我的后腿"。

一、为什么AI很难知道自己哪一步做得对

要真正理解这个问题的难度,需要先理解现代AI智能体是怎么工作的。以搜索类AI智能体为例,它面对一个复杂问题时,不是直接给出答案,而是像一位调查记者一样,反复搜索网络、阅读网页、提炼信息、再搜索、再阅读,经过几十乃至几百轮的信息收集与思考,最终才给出答案。整个过程可能涉及数万乃至数十万个文字符号的生成。

这套过程中,AI训练通常依赖一种叫做"强化学习"的机制,其原理和训练狗狗差不多:做对了给奖励,做错了给惩罚。然而问题在于,奖励只在最终答案出来之后才发放,也就是只有一次信号,而整个过程中的数百步行为全部笼统地被这一个信号覆盖——全部行为统一奖励,或者全部行为统一惩罚。这就好比训练那只狗时,它做了一百个动作,你在最后才说一声"好"或者"不好",狗根本无从判断这一百个动作里哪些该保留、哪些该改掉。

更糟糕的是,一次成功的探索往往包含一些多余甚至有误导性的动作,而一次失败的探索里却可能有几个真正有价值的中间步骤。如果对所有步骤一刀切地奖励或惩罚,AI就很难真正学到"什么样的中间行为才是有效的"。

研究者们也调研了现有的其他解决方案,发现每种方案都有明显局限。依赖外部评分员来给每一步打分的方法成本太高,而且评分标准很难设计得足够精准。用简单规则来估算中间步骤价值的方法虽然便宜,但容易被AI"钻空子"——AI会学会满足规则表面要求,而不是真正做有效的搜索。通过大量模拟未来可能性来估算当前步骤价值的方法又太耗计算资源,在几百轮交互的长程任务中根本用不起。还有一种方法是让AI直接模仿一个"知道答案"的教师版本的自己,但这样做会让AI学到一些在真实使用时不可能有的捷径,导致实际表现反而变差。

正是面对这些困境,PBSD提供了一条新的路径。

二、贝叶斯定理:把"结果侧"的难题转化为"行为侧"的易题

PBSD的核心数学工具是贝叶斯定理,这个定理在日常生活中其实并不陌生。以医院检测为例:如果你做了一个癌症筛查,结果呈阳性,你想知道自己真的患癌的概率有多高。这个概率取决于两件事:一是你在做检测之前患癌的背景概率(先验概率),二是这个检测本身的准确率。贝叶斯定理就是一个把这两件事结合起来,计算出"在看到检测结果之后,患癌概率是多少"的公式。

研究团队把同样的逻辑用到了AI智能体的轨迹评估上。他们先定义了一个衡量某条搜索路径整体质量的"支持分数":如果AI走过这条路之后,正确答案变得更可能出现,那么这条路就是有价值的;反之则是有害的。用数学语言说,这个分数是"观察到这条轨迹之后正确答案的概率"除以"没有任何轨迹信息时正确答案的概率",再取对数。

但问题在于,要直接计算"观察到这条轨迹后正确答案的概率"极其困难,因为这需要把从当前状态出发的所有可能未来路径都考虑一遍,计算量是天文数字。贝叶斯定理在这里发挥了关键作用:它允许研究者把这个难以计算的"答案侧"问题,等价地转化成一个容易计算的"行为侧"问题。

转化后的问题变成了:比较同一条轨迹,在两种条件下出现的可能性之比——一种是普通AI(学生模型)生成这条轨迹的可能性,另一种是"提前知道正确答案"的特权AI(教师模型)生成同一条轨迹的可能性。如果教师模型认为这步行为很合理,说明这步行为确实有助于找到正确答案;如果教师模型觉得这步行为很奇怪,说明这步行为可能是在走弯路。这两个数值都可以直接从模型的输出中读取,不需要任何额外的搜索或模拟。

更妙的是,由于搜索过程是一步一步展开的,这个总体的"支持分数"可以被自然地拆解成每一步的"单步证据分数",每一步的分数就是该步行为在教师模型下的对数概率减去在学生模型下的对数概率。这样,每一步中间行为对最终正确答案的贡献,就有了一个明确、可计算的数值表示。

三、教师与学生:一个模型扮演两个角色

这里可能有读者好奇:教师模型和学生模型是两个不同的AI吗?研究团队的设计非常巧妙,两者实际上是同一个模型,只是输入的信息不同。学生模型在正常推理时并不知道答案,而教师模型则通过一段特殊的提示词,在输入端额外提供了正确答案。这意味着教师模型实际上是"开卷考试状态"下的同一个AI,而不需要训练一个独立的、更强大的外部教师。

这种设计有几个显著的好处。首先,不需要额外的模型存储和计算开销。其次,教师模型和学生模型共享同样的推理风格和语言习惯,不会出现"教师用的是一种解题思路,学生根本理解不了"的情况。第三,也是最重要的一点:学生模型并不直接模仿教师模型的行为,而只是用教师模型的偏好来对自己已经生成的行为打分,然后根据分数调整训练权重。正确答案的信息只通过一个数值分数渗透进来,而不是作为行为模板被直接复制,从而避免了"信息泄露"的风险——即AI学到了一些在实际使用中不可能有的捷径。

四、把分数变成训练信号:温柔而精准的重新分配

有了每一步的证据分数,PBSD接下来的工作是把这些分数转化为实际的训练信号。现有的主流训练方法(如GRPO)会给整条轨迹计算一个统一的"优势分数"——这条轨迹比平均水平好多少,或者差多少——然后把同样的分数分配给轨迹中的每一步。PBSD在这个基础上做了精细化调整:每一步的最终训练强度等于轨迹整体优势乘以一个根据贝叶斯证据分数计算出来的调整系数。

这个调整系数的计算用了一个tanh函数(一种S形曲线),其特点是对较大的证据值反应明显,而对接近零的证据值几乎没有反应,并且有明确的上下限。具体来说,对于一条整体成功的轨迹,单步证据分数高的步骤会获得更强的正向训练激励,而证据分数低甚至为负的步骤会获得相对较弱的激励,不至于因为碰巧在一条成功轨迹里就被强化。对于一条整体失败的轨迹,证据分数为负的步骤会受到更强的惩罚,而证据分数为正的步骤则会受到相对较轻的惩罚,因为它们在客观上是有价值的,不应该被全盘否定。

这种设计的哲学是"保留整体判断,细化局部分配"。最终正确与否仍然是训练的主要依据,贝叶斯证据分数只是在这个主要信号内部做精细的权重再分配,不额外引入新的训练目标,因此不会破坏训练过程的稳定性。

研究团队还发现了一个实践中的重要细节:大多数步骤的证据分数在数值上非常接近零,换言之,大多数步骤对于教师模型和学生模型来说几乎是无差别的。在这种情况下,分数的正负号更多是由随机噪声决定的,而不是真正反映了该步骤的价值。如果把这些低信噪比的分数也纳入权重调整,反而会引入无意义的随机扰动。为此,研究团队设置了一对过滤阈值:只有当证据分数的绝对值超过一定门槛,才真正触发权重调整;低于门槛的步骤一律按统一权重处理。由于正向证据和负向证据的可靠性存在不对称性,两个方向的阈值也分别设定,分别为0.001和0.003,这样大约过滤掉了30%信噪比最低的步骤。

五、针对MoE模型的特殊处理

实验中使用的模型是一类叫做"混合专家模型"(Mixture of Experts,MoE)的特殊架构。这类模型在处理不同输入时会动态调用不同的内部"专家模块",可以用餐厅里不同厨师负责不同菜式来理解。这种结构带来了一个微妙的问题:在计算贝叶斯证据分数时,教师模型和学生模型必须在完全对等的条件下对同一段文本打分,才能保证分数差异真正反映的是"知不知道答案"的区别,而不是"调用了哪个专家模块"的区别。

现有的一种训练技术(R3路由重放)会在训练时复用模型在推理时调用过的专家路由,以保持训练和推理行为的一致性。但如果在计算证据分数时也使用这套复用路由,就可能出现教师版本和学生版本调用了不同的专家模块,导致两者的分数差异反映的是路由差异而非真正的知识差异。研究团队的解决方案是:在计算证据分数时,让教师模型和学生模型都重新自由决定调用哪些专家,使两者处于可比的基准线上;而在实际更新模型参数时,仍然使用路由复用技术。这个细节在消融实验中被证明至关重要:不做这个处理时,模型性能从40.87骤降至27.75,几乎崩溃。

六、实验结果:用更少的训练换来更强的能力

研究团队在一个参数量达300亿、专家激活参数约30亿的大型MoE模型上进行了实验。训练数据方面,他们首先用维基百科构建知识图谱并合成约2100条搜索轨迹,再结合另一个开源数据集中的约5400条轨迹,共7500条数据用于监督微调。在此基础上,他们额外构建了575条数据用于强化学习训练,并保留200条作为验证集。整个强化学习过程在64K上下文长度限制下进行,每条轨迹最多允许300轮工具调用。

评测在四个具有挑战性的基准测试上进行,涵盖英文网页浏览、中文多跳问答、通用AI助手能力和深度搜索能力,评测时使用的上下文长度放宽到256K,比训练时长得多,这也是一个对泛化能力的严格考验。

在最直接的比较中,PBSD与基线方法GRPO相比,在自建的域内验证集上高出2.62个百分点(40.87对38.25),在独立的BrowseComp测试集上高出3.5个百分点(35.83对32.33),而且在简单、中等、困难三个难度段上均有提升,困难题的提升尤为明显(4.50对2.25)。从训练曲线来看,PBSD不仅最终得分更高,而且在前112步内就能更快地收敛到较好的性能水平,训练过程也更加平稳。

与其他几种方法的横向对比同样说明了问题。OPSD(一种直接让AI模仿教师行为的方法)得分为33.25,反而不如单纯的GRPO,这印证了直接模仿教师行为可能带来信息泄露和训练不稳定的隐患。GEAR和RLSD两种方法的得分分别为36.50和34.25,均低于PBSD的40.87。未经强化学习、只做监督微调的基线模型得分为31.75,所有强化学习方法都优于它。

在更广泛的跨基准测试中,PBSD的表现同样亮眼。在BrowseComp上,PBSD成为所有经过训练的智能体中得分最高的(46.21),超过了使用数万乃至十万量级训练数据的多个竞争模型。在GAIA文本任务上,PBSD达到81.10,是所有受训智能体中最高的。在xBench深度搜索任务上,PBSD达到71.00,仅次于Tongyi-DR-30B的75.0。考虑到PBSD只用了8000条训练数据并在64K上下文下训练,这些成绩尤为可观。

研究团队还观察了训练过程中模型行为的变化规律,发现了几个有意思的现象。随着训练推进,模型的搜索轮数增加了,但每轮生成的文字反而减少了,总token数量明显下降。这说明模型正在从"废话多、思考冗长"转变为"简短有力、多次聚焦搜索",更像一个经验丰富的研究员而不是一个啰嗦的新手。与此同时,教师模型比学生模型给出更高分的步骤比例在稳步上升,说明学生模型生成的中间步骤越来越符合"对最终答案有帮助"的标准。教师和学生之间的分数差距也在缩小,说明学生模型越来越能生成与正确答案方向一致的行为——而这一切都是在没有直接模仿教师的情况下自然涌现的。

七、消融实验:三个设计缺一不可

研究团队通过系统的消融实验验证了PBSD各个设计细节的必要性。

关于路由重放解耦,已经在上文提到,去掉这一设计会导致性能骤降,这是最关键的工程细节。

关于tanh调制的敏感度参数δ,研究团队测试了0.1、0.5、1.0和2.0四个取值。δ越小,证据分数对训练权重的影响越大;δ越大,调整越平缓,趋近于GRPO的均匀分配。结果显示δ=0.1效果最好,BC(300)得分为35.83;随着δ增大,性能单调下降,δ=2.0时降至32.00,从侧面证明了贝叶斯证据分数提供的信号确实有效,而不是噪声。

关于低信噪比过滤阈值,研究团队测试了从完全不过滤到过滤40%的多个方案。完全不过滤时,模型得到的是充满噪声的信号,性能只有34.87;过滤10%时效果改善有限;过滤30%时达到最佳(40.87);过滤40%时又开始退步,因为此时有价值的信息被过度丢弃。这个倒U形的结果说明,适度过滤是提高信号质量的必要手段,但过犹不及。

说到底,PBSD做的事情可以用一句话概括:在AI知道自己走的这条路是对是错之后,回过头来审视路上的每一步,用一套数学工具客观地判断哪些步骤真正帮助了自己走向终点、哪些步骤只是在原地打转,然后在下次训练时给有价值的步骤多打气、给无价值的步骤少强化。这套方法不需要外部裁判、不需要昂贵的模拟搜索、不会泄露推理时不应该有的信息,而且可以直接插进现有的训练流程里,不用改变整体框架。

当然,这套方法也有它的局限。它依赖于每道题都有一个明确、可验证的标准答案——在数学题、知识检索类任务中这不是问题,但在那些答案本身就存在多种可能性、或者无法被自动验证的开放性任务中,这套机制就需要做相应的调整。研究者们也指出,如果模型本身的概率估计不够准确,计算出来的证据分数也可能失真。未来的研究方向包括用可学习的验证器来替代硬编码的标准答案,使这套信用分配方法能够扩展到更多类型的任务中去。

对于普通读者来说,这项研究意味着未来的AI助手在完成复杂的查询和研究任务时,不仅会越来越准确,而且会越来越高效——更少的废话,更精准的搜索,更直接地切入问题核心。不妨思考这样一个问题:如果一个AI助手能够精准地知道自己每一步操作的价值,它会如何改变你处理复杂信息查询的方式?对这项研究有兴趣深入了解的读者,可以通过arXiv编号2606.09348查阅完整论文。

Q&A

Q1:PBSD中的"教师模型"和"学生模型"有什么区别,需要训练两个不同的模型吗?

A:不需要训练两个模型。PBSD中的教师模型和学生模型是同一个模型,区别只在于输入的信息不同。教师模型在推理时额外被提供了正确答案,相当于"开卷考试状态";学生模型则是正常推理,不知道答案。两者生成同一段轨迹的概率之差,就反映了该步骤对最终答案的支持程度。这种设计避免了维护额外模型的成本,也避免了直接模仿教师行为带来的信息泄露问题。

Q2:PBSD为什么要过滤掉部分证据分数接近零的步骤,而不是用全部步骤来训练?

A:因为大多数中间步骤的证据分数在数值上非常接近零,这时分数的正负号更多是由随机噪声决定的,并不真正反映该步骤的价值。如果把这些低质量的信号也用于调整训练权重,反而会给模型引入无意义的随机干扰。研究发现,过滤掉约30%信噪比最低的步骤效果最好,过滤太少噪声太多,过滤太多则会丢掉有价值的信息。

Q3:PBSD在混合专家模型上训练时为什么要对证据分数计算做特殊处理?

A:混合专家模型在推理时会动态选择调用哪些内部"专家模块",不同的运行条件可能触发不同的专家组合。如果计算教师模型和学生模型的概率时,两者调用的专家模块不同,那么两者之间的概率差异就可能来自"专家选择不同"而非"知不知道答案",从而产生错误的证据分数。PBSD的解决方案是,计算证据分数时让两者都重新自由选择专家,确保对比条件一致;只在更新模型参数时才使用路由复用技术。实验证明,不做这个处理会导致性能骤降。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。