当前位置：首页 » 资讯 » 新科技 » 正文

清华联合UCSD团队新突破：让AI像学霸一样推理思考的OREO训练法

IP属地中国·北京 科技行者 时间：2026-03-06 22:20:09

这项由清华大学联合加州大学圣地亚哥分校（UCSD）等多所顶尖高校共同完成的研究发表于2024年12月的arXiv预印本平台，论文编号为arXiv:2412.16145v2。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们看到ChatGPT解数学题时，有没有想过它是怎么一步步推理的？就像学霸做题一样，需要先理解题意，然后列出解题步骤，最后得出答案。但现在的AI训练方法就像只告诉学生"这道题答案是对的，那道题是错的"，却没有告诉它每个解题步骤哪里做得好、哪里有问题。
研究团队发现了一个关键问题：当前最流行的AI训练方法DPO（直接偏好优化）就像一个只会看最终成绩的老师，无法指出学生在解题过程中具体哪一步出了错。这对于需要多步骤推理的复杂任务来说显然不够用。于是，他们开发了一套全新的训练方法OREO（离线推理优化），就像给AI配备了一位既会评分又会详细点评每个步骤的贴心导师。
OREO的核心创新在于同时训练两个"大脑"：一个负责生成推理步骤的策略模型，另一个负责评估每个步骤价值的价值函数。这就像培养一个学生时，不仅要教会他如何解题，还要培养他的判断力，让他知道每一步的好坏。研究团队在数学推理和智能体控制任务上验证了这种方法的效果，结果令人振奋。在著名的MATH数学竞赛数据集上，仅用1.5亿参数的小模型就达到了52.5%的正确率，这在同类规模的模型中是非常突出的成绩。
一、传统方法的困境：像盲人摸象的AI训练
在深入了解OREO方法之前，我们需要理解当前AI训练面临的挑战。目前最主流的训练方法叫做DPO，它的工作原理就像一位只看考试成绩的老师。这位老师会拿两份作业给学生看，告诉他"这份作业比那份好，你要向好的学习"，但从不解释为什么一份作业比另一份好，也不指出具体哪个步骤做得对、哪个步骤有问题。
这种方法对于简单任务还勉强可行，比如让AI写一段简单的文字或者回答一个直接的问题。但当面对复杂的多步推理任务时，比如解一道复杂的数学题或者控制一个机器人完成家务，问题就暴露出来了。数学题的解题过程可能需要十几个步骤，每一步都至关重要。如果只是简单地告诉AI"这道题做对了，那道题做错了"，AI根本不知道自己错在哪一步，也不知道正确的推理路径是什么。
更严重的是，DPO需要成对的偏好数据。什么意思呢？就是研究人员必须手动标注哪个答案更好，哪个答案更差，然后把它们配对给AI学习。这就像让老师把学生作业两两配对，不断地说"A同学的作业比B同学好"、"C同学的作业比D同学好"。这种标注工作不仅费时费力，而且对于复杂的推理任务来说，很难找到足够多的高质量配对数据。
研究团队还发现，DPO在处理多步推理时存在一个根本性缺陷：它把所有的词语和步骤都一视同仁。但实际上，在解数学题的过程中，有些步骤是关键的突破点，有些步骤只是简单的计算。就像在做菜时，掌握火候是关键步骤，而洗菜切菜虽然也重要，但没有那么关键。DPO无法区分这种重要性差异，导致AI学习效率低下。
这些问题促使研究团队思考：能不能设计一种更聪明的训练方法，让AI不仅知道什么是好答案，还能理解好答案的每一个步骤为什么好？
二、OREO的核心思想：双脑协作的智能训练
OREO方法的核心理念可以用"双脑协作"来形容。传统的AI训练就像只培养学生的解题能力，而OREO同时培养两种能力：解题能力和评估能力。这就像同时训练一个学生成为解题高手和评分老师。
第一个"大脑"叫做策略模型，它负责生成推理步骤，就像学生在做题时的思考过程。当面对一道数学题时，这个大脑会一步步地分析问题，列出解题步骤，最终给出答案。
第二个"大脑"叫做价值函数，它负责评估每个推理步骤的好坏，就像一位经验丰富的老师在旁边观看学生解题，能够判断每一步的价值。当学生写下"设x为未知数"时，价值函数会评估这一步是否有用；当学生列出方程时，价值函数会判断这个方程是否正确且有助于解决问题。
这两个"大脑"不是各自为政，而是相互配合、共同学习。策略模型在生成每个推理步骤时，都会参考价值函数的评估；价值函数在评估步骤价值时，也会考虑策略模型的行为模式。这种协作关系让整个AI系统变得更加智能和高效。
OREO的数学基础来源于一个叫做"软贝尔曼方程"的理论框架。听起来很高深，但其实道理很简单。这个方程描述了一个最优决策者应该如何平衡当前步骤的收益和未来可能获得的总收益。就像下围棋时，高手不仅会考虑当前这一步能吃掉多少子，还会考虑这一步对整个棋局走势的影响。
具体来说，软贝尔曼方程告诉我们：一个最优的推理步骤应该既能带来当前的收益（比如让解题更接近正确答案），又要为后续的推理步骤创造有利条件。这就像做菜时选择调料，不仅要考虑当前这道菜的味道，还要考虑这种调料是否会影响后续的烹饪步骤。
三、技术实现：像教练一样精确指导
OREO的技术实现过程就像培训一支专业团队。研究团队设计了一套精巧的训练机制，让策略模型和价值函数能够高效地协同工作。
在训练策略模型时，OREO采用了一种叫做"步骤级信用分配"的方法。什么意思呢？就像评价一场足球比赛时，不仅要看最终比分，还要分析每个传球、每次射门的贡献。当AI解一道数学题时，OREO会分析每一个推理步骤的具体贡献：这一步让问题变得更清晰了吗？这一步是否为后续步骤铺平了道路？
训练价值函数的过程更像培养一位资深评委。这个函数需要学会评估任何给定状态下的"前景"有多好。比如，当AI已经完成了解题的前三步时，价值函数需要判断：按照当前的进度和方向，最终解对这道题的可能性有多大？这种评估能力对于指导后续的推理步骤至关重要。
研究团队还设计了三种不同的OREO变体来适应不同的应用场景。第一种是标准的词语级OREO，它把每个词语都当作一个推理步骤来处理。第二种是步骤级OREO，它把完整的推理步骤（比如"因此x=5"）作为基本单位。第三种是响应级OREO，它模仿DPO的行为模式，主要用于对比实验。
在实际实现中，OREO使用了一种叫做"停止梯度"的技术技巧。这听起来很专业，但原理很简单：就像在接力赛中，每个跑者都要专注于自己的任务，而不是同时关心其他所有人的表现。这种设计确保了训练过程的稳定性，避免了两个"大脑"之间的相互干扰。
四、实验验证：全面超越传统方法
为了验证OREO的有效性，研究团队进行了大量的实验，就像对比不同教学方法的效果一样。他们选择了数学推理和智能体控制两个具有代表性的任务领域进行测试。
在数学推理任务中，团队使用了两个著名的数据集：GSM8K和MATH。GSM8K包含小学数学题，而MATH包含竞赛级别的数学题，难度相当高。实验结果令人印象深刻：使用OREO训练的1.5亿参数模型在GSM8K上达到了77.3%的正确率，在MATH上达到了52.5%的正确率。这个成绩相比传统的监督学习方法分别提升了5.2%和10.5%，在同等规模的模型中表现非常优异。
更令人惊喜的是，即使在更大的70亿参数模型上，OREO依然展现出了优势。这个已经经过精心调优的大模型在传统方法下已经有很好的基础性能，但OREO还能在此基础上再提升3.6%到5.1%的准确率，证明了方法的普适性和强大潜力。
在智能体控制任务中，研究团队使用了ALFWorld环境，这是一个模拟家庭环境的测试平台，AI需要控制虚拟机器人完成各种家务任务。OREO在这个任务上的表现同样出色，特别是在未见过的新环境中，成功率提升了17.7%。这说明OREO不仅能够提高学习效率，还能增强AI的泛化能力，让它在面对新情况时表现更好。
研究团队还进行了一系列对比实验，将OREO与其他主流方法进行了详细比较。结果显示，传统的拒绝采样方法虽然简单有效，但在复杂任务上容易遇到瓶颈；DPO方法在多步推理任务上表现不佳，有时甚至不如简单的监督学习；而KTO等其他改进方法的效果也比较有限。相比之下，OREO在各种设置下都展现出了稳定的优势。
五、迭代训练：越练越聪明的学习循环
OREO的另一个重要特色是支持迭代训练，就像学生通过反复练习逐步提高成绩一样。在第一轮训练完成后，研究团队使用更新后的AI模型生成新的数据，然后用这些新数据进行下一轮训练。这个过程可以重复多次，每次都能进一步提升模型的性能。
实验结果显示，OREO在迭代训练中表现出了持续改进的能力。经过三轮迭代后，模型在数学推理任务上的准确率继续稳步上升，没有出现停滞或下降的现象。这与传统方法形成了鲜明对比：拒绝采样等方法在第三轮迭代时就开始显现饱和迹象，改进幅度明显减小。
这种持续改进的能力源于OREO能够有效利用失败经验。传统的监督学习方法只关注正确的解题过程，忽略了错误案例中蕴含的宝贵信息。而OREO通过价值函数的引导，能够从失败的推理过程中学到什么不该做，从而避免重复相同的错误。这就像一位经验丰富的老师不仅会表扬学生的正确做法，还会分析错误的原因，帮助学生建立更全面的认知。
六、价值函数的额外价值：免费的推理助手
OREO训练过程中产生的价值函数不仅用于训练，还可以直接用于提升推理性能，这就像培养学生时顺便获得了一位优秀的辅导老师。研究团队发现，这个价值函数可以在推理时进行"树搜索"，大大提升AI的解题准确率。
树搜索的原理就像下象棋时考虑多种走法。当AI遇到一道数学题时，它不再只是按照最直接的思路解题，而是在每个关键步骤都考虑几种不同的可能性，然后利用价值函数来评估哪种选择最有希望通向正确答案。这种方法在MATH数据集上带来了17.9%的相对性能提升，效果非常显著。
在智能体控制任务中，价值函数被用于"最佳选择"策略。AI会在每个决策点生成多个可能的动作，然后选择价值函数评分最高的那个。这种方法在ALFWorld环境中也带来了明显的性能提升，证明了价值函数的通用性。
研究团队还进行了有趣的对比分析，比较了显式价值函数和隐式价值函数的差异。隐式价值函数是从策略模型中推导出来的，而显式价值函数是OREO专门训练的独立模块。结果显示，显式价值函数在区分正确和错误推理步骤方面表现更加敏锐，能够更准确地识别关键的转折点。这种差异可能源于显式价值函数能够利用完整的上下文信息，而不像隐式价值函数那样受到模型架构的限制。
七、方法对比：深度解析OREO的独特优势
为了更好地理解OREO的创新性，研究团队进行了详细的方法对比分析。他们将OREO与DPO进行了深入的理论比较，揭示了两种方法在处理多步推理任务时的根本差异。
DPO方法基于一个叫做"布拉德利-特里偏好模型"的数学框架，这个模型假设人们对两个选项的偏好可以通过简单的概率关系来描述。但这种假设在多步推理任务中存在两个重要问题：第一，它需要配对的偏好数据，而这种数据在复杂推理任务中很难获得；第二，它将整个推理过程视为一个整体，无法对具体步骤进行精确的信用分配。
相比之下，OREO基于软贝尔曼方程的理论框架，能够自然地处理未配对的数据，并且能够对每个推理步骤进行精确评估。这就像DPO只能告诉你"这幅画比那幅画好"，而OREO能够详细分析"这幅画的构图很好，色彩搭配也不错，但是透视关系有些问题"。
研究团队还探索了OREO的不同变体。标准的词语级OREO将每个词语作为基本的决策单元，这种方法计算简单但可能过于细致。步骤级OREO将完整的推理步骤作为基本单元，这更符合人类的思维模式但实现稍微复杂。响应级OREO试图模仿DPO的行为，主要用于验证OREO框架的灵活性。
实验结果表明，词语级和步骤级OREO的性能相当，都明显优于响应级OREO。这个发现很有意思：它说明了细粒度的信用分配确实是提升性能的关键，而简单地将OREO的训练目标应用到整个响应级别并不能带来显著改进。
八、技术细节：实现过程的精妙设计
OREO的实际实现涉及许多精心设计的技术细节。研究团队在论文中详细描述了训练过程的各个环节，这些细节对于理解方法的有效性和可重复性都非常重要。
在数据准备阶段，团队采用了不同的策略来平衡正负样本的比例。对于1.5亿参数的小模型，他们为每个问题生成10个回答，然后根据最终答案的正确性来判断奖励。对于70亿参数的大模型，他们采用了更复杂的策略：生成16个回答，然后最多选择4个正确答案和4个错误答案，确保负样本数量不少于正样本数量。这种平衡策略有助于模型更好地学习区分正确和错误的推理模式。
在训练超参数的设置上，研究团队进行了大量的实验调优。学习率被设置为5×10^-6，这个数值既能保证学习效率，又能避免训练过程中的不稳定性。正则化参数β设置为0.03，α设置为0.01，这些参数的精确调节对于最终性能至关重要。
为了节省计算资源，在训练大模型时，团队使用了LoRA（Low-Rank Adaptation）技术来训练价值函数。这种技术只更新模型参数的一小部分，大大减少了训练成本，同时保持了良好的性能。LoRA的秩和缩放因子都设置为64，这个配置在效率和效果之间达到了良好的平衡。
九、实验设计的科学性：严谨的验证体系
研究团队在实验设计上体现了严谨的科学态度。他们选择了多个具有代表性的基准测试，涵盖了不同难度级别和应用领域的任务。
在数学推理领域，GSM8K数据集包含7473个训练问题和1319个测试问题，都是小学数学应用题，具有良好的代表性。MATH数据集更具挑战性，包含7500个训练问题和5000个测试问题，都是竞赛级别的数学题目，涉及代数、几何、数论等多个分支。
在智能体控制领域，ALFWorld提供了一个模拟家庭环境，包含140个已见环境任务和134个未见环境任务。这种设置能够很好地测试模型的泛化能力，因为在现实应用中，AI系统经常需要面对训练时未曾遇到的新情况。
基线方法的选择也很全面。除了标准的监督学习（SFT），团队还比较了拒绝采样、DPO、KTO等多种主流方法。这些方法代表了当前AI训练领域的主要技术路线，对比结果具有很强的说服力。
特别值得注意的是，研究团队使用了不同规模的模型进行验证，从1.5亿参数的小模型到70亿参数的大模型，确保了结论的普适性。这种多尺度验证在AI研究中并不常见，但对于证明方法的有效性非常重要。
十、理论贡献：连接强化学习与语言模型训练
OREO的理论贡献不仅在于提出了一种新的训练方法，更重要的是它建立了强化学习理论与大语言模型训练实践之间的桥梁。这种连接具有深远的理论意义和实践价值。
在理论层面，OREO基于最大熵强化学习的经典框架，特别是路径一致性学习（PCL）算法。但是，传统的PCL主要用于连续控制任务或离散的游戏环境，如何将其有效地应用到语言模型的序列生成任务中是一个挑战。研究团队通过重新定义状态空间、动作空间和奖励函数，成功地将PCL框架扩展到了自然语言处理领域。
软贝尔曼方程的引入为理解多步推理提供了新的视角。这个方程不仅描述了最优策略的数学特性，还揭示了为什么传统的监督学习方法在复杂推理任务上表现不佳。通过同时优化策略模型和价值函数，OREO能够更好地处理奖励稀疏和延迟的问题，这在多步推理任务中非常常见。
研究团队还从理论角度分析了DPO的局限性。他们证明了DPO实际上是软贝尔曼方程的一个特殊情况，但这个特例放松了很多重要约束，导致信息损失。这种理论分析不仅解释了为什么DPO在多步推理任务上表现不佳，也为改进现有方法提供了指导。
十一、案例分析：直观展示方法效果
为了更直观地展示OREO的效果，研究团队提供了详细的案例分析。他们比较了显式价值函数和隐式价值函数在具体推理步骤上的表现差异。
在一个数学问题的求解过程中，当AI需要选择下一个推理步骤时，显式价值函数能够给出更加准确的评估。例如，面对"Betty现在有50美元+30美元=80美元"这个错误步骤时，显式价值函数的优势评分大幅下降（从0.816降到0.385，优势为-0.431），而隐式价值函数的反应则比较温和（优势为-0.151）。
这种差异在更复杂的MATH问题中表现得更加明显。在一道涉及多步代数运算的题目中，显式价值函数能够正确识别关键的推理步骤，而隐式价值函数则无法做出准确判断。这说明了专门训练的价值函数确实具有更强的判别能力。
研究团队认为这种差异可能源于所谓的"softmax瓶颈"问题。隐式价值函数受到语言模型架构的限制，所有的预测都必须通过同一个输出层，而显式价值函数可以利用完整的上下文信息进行更精确的评估。
十二、应用前景：广阔的发展空间
OREO方法的成功不仅在于其在数学推理和智能体控制任务上的优异表现，更重要的是它展示了一种新的AI训练范式的可能性。这种方法有望应用到更多需要多步推理的领域。
在代码生成任务中，程序编写往往需要多个步骤：理解需求、设计算法、编写代码、调试错误。OREO的价值函数可以评估每个编程步骤的质量，指导AI生成更高质量的代码。在科学推理任务中，从假设提出到实验设计再到结论得出，每一步都需要精确的评估和指导。
在对话系统中，OREO也可能带来改进。复杂的对话往往需要多轮交互，AI需要理解上下文、规划回应策略、生成合适的回复。价值函数可以评估每个对话步骤对整体目标的贡献，帮助AI进行更好的对话规划。
更有趣的是，OREO的迭代训练能力为AI的持续学习开辟了新道路。传统的AI训练往往是"一次性"的，训练完成后模型参数就固定了。而OREO支持的迭代改进模式更接近人类的学习过程，可以随着新数据的出现不断完善自己的推理能力。
十三、技术挑战与解决方案：工程实现的智慧
在将理论转化为实际可用的系统时，研究团队遇到了许多技术挑战，他们的解决方案展现了工程实现的智慧。
首先是计算效率问题。同时训练策略模型和价值函数会增加计算开销，特别是对于大型模型。团队采用了多种优化策略：使用LoRA技术减少参数更新量，采用停止梯度操作避免不必要的计算，设计高效的批处理方法提高GPU利用率。
其次是训练稳定性挑战。两个相互依赖的模型同时训练容易产生不稳定性，就像两个人互相学习可能会放大错误一样。研究团队通过精心设计学习率调度、添加正则化项、使用指数移动平均等技术来确保训练过程的稳定性。
数据处理也是一个重要挑战。不同于传统的监督学习，OREO需要处理带有中间步骤评估的序列数据。团队开发了专门的数据预处理管道，能够自动识别推理步骤边界，计算中间状态的价值标签，处理变长序列等问题。
内存管理同样重要。推理过程中需要存储完整的推理轨迹和中间状态，这对内存提出了更高要求。研究团队通过梯度检查点、动态内存分配、序列长度自适应等技术来优化内存使用。
十四、对比实验：全方位性能验证
研究团队设计了全面的对比实验来验证OREO的有效性。这些实验不仅比较了最终性能，还深入分析了不同方法的行为特征和适用场景。
在数学推理任务的对比中，OREO在各个维度都表现出色。与拒绝采样相比，OREO不仅准确率更高，而且能够更好地利用失败案例中的信息。与DPO相比，OREO在处理复杂多步推理时显示出明显优势，特别是在需要长推理链的难题上。与KTO等其他改进方法相比，OREO的改进更加稳定和一致。
在智能体控制任务中，OREO的优势更加明显。特别是在未见过的新环境中，OREO训练的智能体表现出更强的适应能力。这说明价值函数的引入确实帮助AI学到了更加通用的推理策略，而不仅仅是记忆训练数据中的特定模式。
迭代训练的对比实验揭示了OREO的另一个重要优势。随着训练轮次的增加，传统方法的改进逐渐放缓，甚至出现性能下降，而OREO能够持续改进。这种持续学习能力对于实际应用具有重要价值。
测试时推理的对比实验展示了价值函数的额外价值。在相同的计算预算下，使用价值函数指导的树搜索比简单的多样性采样效果更好。这种改进在困难问题上尤其明显，证明了显式价值函数在复杂推理中的独特价值。
研究团队总结说，OREO在几乎所有测试场景中都展现出了优势，这种一致性和稳定性是评估新方法时最重要的指标。同时，OREO的改进并不依赖于特定的模型架构或数据集特征，显示了良好的通用性。
说到底，OREO方法的成功源于它抓住了多步推理的核心特点：每个步骤都很重要，而且步骤之间存在复杂的依赖关系。传统的训练方法要么忽略了步骤间的差异，要么无法准确评估每个步骤的贡献。OREO通过同时训练策略模型和价值函数，成功解决了这个长期困扰AI训练的难题。
更重要的是，OREO展示了一种新的AI训练哲学：不仅要教会AI如何做，还要教会它如何评估自己的行为。这种"自我反思"能力是人类智能的重要特征，也可能是通向更强人工智能的重要一步。虽然这项研究主要关注数学推理和智能体控制，但其核心思想可能适用于更广泛的AI任务。
随着大语言模型在各个领域的应用越来越广泛，如何训练它们进行可靠的多步推理变得越来越重要。OREO为这个挑战提供了一个有希望的解决方案，不仅在理论上有所创新，在实践中也展现了显著效果。对于普通用户来说，这可能意味着未来的AI助手在解决复杂问题时会更加可靠和智能。有兴趣深入了解技术细节的读者可以通过arXiv:2412.16145v2查询完整论文。
Q&A
Q1：OREO训练法和传统的DPO方法有什么区别？
A：OREO同时训练策略模型和价值函数两个"大脑"，能够评估推理过程中每个步骤的好坏，而DPO只能简单比较最终答案的优劣，无法进行精确的步骤级指导。OREO还不需要配对的偏好数据，能更好地利用失败经验。
Q2：OREO方法在哪些任务上表现最好？
A：OREO在需要多步推理的复杂任务上表现优异，特别是数学推理和智能体控制。在MATH数学竞赛数据集上，1.5亿参数的小模型就达到了52.5%的正确率，在未见过的新环境中智能体控制成功率提升了17.7%。
Q3：价值函数除了训练还有什么用处？
A：价值函数可以在推理时进行树搜索，大大提升AI解题准确率。就像下棋时考虑多种走法，AI在每个关键步骤都会考虑几种可能性，然后选择价值函数评分最高的选项，在MATH数据集上带来了17.9%的性能提升。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

无需再引流！马斯克旗下X平台推出站内创作者变现功能

「死了么」回来了！爆火后争议缠身，这次要好好做？

林俊旸可别拿阿里的钱

你的手机信号正在变聪明：三件事看懂通信服务的未来

真我暂停新机研发上热搜！OPPO回应称产品研发工作正常进行中

刚上春晚，公司创始人被传离职，最新公告

全站最新

无需再引流！马斯克旗下X平台推出站内创作者变现功能

「死了么」回来了！爆火后争议缠身，这次要好好做？

林俊旸可别拿阿里的钱

你的手机信号正在变聪明：三件事看懂通信服务的未来

热门推荐

无需再引流！马斯克旗下X平台推出站内创作者变现功能

「死了么」回来了！爆火后争议缠身，这次要好好做？

林俊旸可别拿阿里的钱

你的手机信号正在变聪明：三件事看懂通信服务的未来

挤爆腾讯！为了 “养虾”，近千人 “鹅厂” 门口排长队，小学生、大爷都来了！

真我暂停新机研发上热搜！OPPO回应称产品研发工作正常进行中

刚上春晚，公司创始人被传离职，最新公告

又一重磅临床转化平台落地外高桥，中国药科大学“加盟”浦东，让创新不再“卡在路上”

两会现场速递|“希望机器人‘徒弟’超越我”

大厂抢人才：字节启动最大规模转正实习生招聘，腾讯放话招1万人

阿里辟谣大模型团队集体离职：团队稳定服务正常

全国人大代表雷军：未来几年会有更多人形机器人进厂干活

百亿智能体时代，中小企业怎么办？全国政协委员周鸿祎：不要盲目追求部署数量

京东曹鹏：AI效能优先倒逼行业转向“重实效”

加密货币全线下跌比特币跌超5%