这项由微软研究院的Ning Shang、Yifei Liu、Yi Zhu、Li Lyna Zhang等研究人员于2025年8月提交的研究成果,以论文《rStar2-Agent: Agentic Reasoning Technical Report》的形式发布在arXiv预印本服务器上。有兴趣深入了解的读者可以通过论文ID arXiv:2508.20722v1访问完整论文,代码和训练配方也已在GitHub的rStar项目中开源。
当我们提到人工智能的数学推理能力时,大多数人可能会想象这需要一个庞大无比的模型才能实现。就像建造摩天大楼需要大量钢筋混凝土一样,人们普遍认为要让AI解决复杂数学问题,就必须投入海量的计算资源和参数。然而,微软研究院的这项最新成果却彻底颠覆了这一观念。
研究团队开发的rStar2-Agent模型仅包含140亿个参数,相当于一座中型写字楼的规模,却能在数学推理能力上与拥有6710亿参数的DeepSeek-R1这样的"超级摩天大楼"级模型相提并论,甚至在某些测试中表现更优。更令人惊叹的是,这个"小而美"的模型只用了510个训练步骤就达到了这种水平,整个训练过程在64个GPU上仅用了一周时间。
这就好比一个普通厨师用简单的厨具和短短一周的练习,就做出了能与米其林三星大厨媲美的精致料理。rStar2-Agent在AIME24(美国数学邀请赛2024)中取得了80.6%的准确率,在AIME25中达到69.8%的准确率,这些成绩不仅超越了OpenAI的o3-mini模型,也胜过了Claude-Opus-4.0等知名AI系统。
这项研究的核心创新在于让AI学会"聪明地思考"而不仅仅是"长时间思考"。传统的AI推理就像一个学生在考试时不停地在草稿纸上写写画画,希望通过更长的思考过程找到答案。而rStar2-Agent则更像一个聪明的学生,知道什么时候该用计算器,什么时候该画图表,如何从工具的反馈中学习并调整思路。
一、突破性的"智能体强化学习":让AI学会使用工具思考
传统的AI数学推理就像让一个人在黑暗中摸索解题,只能依靠内心的独白和推演。当遇到复杂计算或需要验证中间步骤时,AI往往会陷入自我怀疑的循环,或者产生看似合理但实际错误的推理链。这种"纯思维链"的方法虽然在某些情况下有效,但就像让一个数学家在没有任何计算工具的情况下解决复杂问题一样,存在明显的局限性。
rStar2-Agent的创新之处在于引入了"智能体强化学习"的概念。简单来说,就是让AI学会像人类数学家一样,知道什么时候该拿起计算器、什么时候该用Python编程验证结果、什么时候该画个图表帮助理解。这个过程类似于教导一个学生不仅要会心算,还要学会合理使用各种数学工具。
在实际操作中,rStar2-Agent会在推理过程中主动调用Python代码执行环境。当它需要进行复杂数值计算时,不是在脑海中苦苦推演,而是写出Python代码来精确计算。当计算结果出来后,它还会仔细分析这些结果是否符合预期,就像一个谨慎的研究员会反复验证实验数据一样。
这种方法的优势体现在多个方面。首先,Python编程工具大大扩展了AI的"行动空间"。原本只能进行抽象推理的AI现在可以进行精确的数值计算、符号运算,甚至可以生成可视化图表来辅助理解。其次,工具的反馈为AI提供了外部验证机制。当AI写出的代码产生错误时,Python解释器会返回具体的错误信息,AI可以据此调整思路,这比单纯的内省反思要可靠得多。
然而,让AI学会使用编程工具并非易事。就像教会一个人开车不仅要学会操作方向盘,还要学会观察路况、处理突发情况一样,AI需要学会的不仅是如何写代码,还包括如何解读代码执行结果,如何从错误中学习,如何在代码出错时进行调试。
研究团队发现,当AI刚开始学习使用编程工具时,经常会写出语法错误的代码,或者逻辑错误的程序。更具挑战性的是,即使代码能够运行,AI也可能误解计算结果的含义。这就像一个初学者虽然学会了使用计算器,但可能会输入错误的算式或者误读显示结果。
为了解决这些问题,研究团队开发了一套完整的多轮对话机制。AI的推理过程不再是一次性的长篇独白,而是变成了与编程环境的多轮互动。在每一轮中,AI会生成一段推理过程,可能包含代码调用,然后接收环境的反馈,再基于这些反馈进行下一轮思考。
这种多轮互动的好处是显而易见的。AI可以逐步验证自己的推理过程,及时发现和纠正错误,而不是等到最后才发现整个推理链存在问题。更重要的是,这种方式让AI学会了从外部反馈中学习,培养了类似人类的"反思能力"。
二、创新算法GRPO-RoC:在噪声环境中学会精确推理
当AI开始使用编程工具进行推理时,一个新的挑战随之出现:环境噪声问题。这就好比一个学生在学习过程中不仅要掌握正确的解题方法,还要学会识别和避免各种干扰因素。在编程环境中,AI经常会遇到语法错误、逻辑错误、超时等各种问题,这些"噪声"可能会误导学习过程。
传统的强化学习方法在这种情况下表现不佳。它们通常只关注最终结果是否正确,而忽略了达到正确结果的过程质量。这就像只看考试成绩而不关心学生的解题过程一样,可能会强化一些运气成分较大的"歪门邪道"。
研究团队观察到一个有趣现象:在使用传统方法训练时,即使AI最终得出了正确答案,其推理过程中往往充满了工具调用错误。AI似乎学会了"带病工作"——即使代码经常出错,只要最终答案碰巧正确,它就认为这种方法是可行的。这种学习方式不仅效率低下,而且会导致AI产生冗长而低质量的推理过程。
为了解决这个问题,研究团队开发了GRPO-RoC算法(Group Relative Policy Optimization with Resampling on Correct,基于正确重采样的组相对策略优化)。这个算法的核心思想可以用一个生动的比喻来解释:就像一个严格的教练在选拔运动员时,不仅要看谁跑得最快,还要看谁的跑姿最标准。
GRPO-RoC的工作流程是这样的:对于每个数学问题,AI会生成多个不同的解答过程,其中一些能得出正确答案,一些则不能。传统方法会简单地奖励所有正确答案,惩罚所有错误答案。而GRPO-RoC则更加细致,它会在正确答案中进一步筛选出那些过程最优雅、工具使用最恰当的解答。
具体来说,算法会对每个正确的解答过程进行质量评估。评估标准包括工具调用的成功率、代码的简洁程度、推理过程的逻辑性等。那些虽然得出正确答案但过程中充满错误的解答会被降低权重,而那些过程优雅、逻辑清晰的解答则会获得更高的学习优先级。
这种方法的效果非常显著。在训练过程中,AI不仅学会了得出正确答案,更重要的是学会了如何优雅地达到这些答案。工具调用错误率大幅下降,推理过程变得更加简洁有效。这就像一个学生不仅提高了考试成绩,而且掌握了更好的学习方法。
GRPO-RoC算法还有一个巧妙的设计:非对称采样策略。对于错误的解答,算法会保持多样性,让AI能从各种不同类型的错误中学习。而对于正确的解答,则会优先选择质量最高的那些作为学习样本。这种策略确保了AI既能学会避免错误,又能学会追求卓越。
研究团队通过大量实验验证了这种方法的有效性。使用GRPO-RoC算法训练的AI不仅在准确率上有所提升,在推理效率上也有显著改善。原本需要数千个词汇才能表达的推理过程,现在只需要几百个词汇就能完成,而且逻辑更加清晰。
三、高效基础设施:支撑大规模智能体训练的技术架构
训练一个能够熟练使用编程工具的AI系统,在技术实现上面临着前所未有的挑战。这就像同时管理成千上万个学生在线考试,每个学生都可能随时需要使用计算器、查阅资料或进行实验,而系统必须确保所有操作都能快速响应且不互相干扰。
传统的AI训练通常只涉及文本生成,就像让学生在纸上写作文一样相对简单。但rStar2-Agent的训练过程中,每个训练样本都可能触发多次代码执行请求。一个训练批次可能包含数万个这样的请求,每个请求都需要在独立的Python环境中执行,并且要在合理的时间内返回结果。
更复杂的是,AI生成的代码是不可预测的。就像让一群初学者随意编写程序一样,这些代码可能包含各种错误:语法错误、逻辑错误、无限循环,甚至可能调用危险的系统功能。如果在主训练进程中直接执行这些代码,很容易导致系统崩溃或安全问题。
为了解决这些挑战,研究团队构建了一套专门的分布式代码执行环境。这个系统的设计理念类似于一个大型考试中心:有专门的考场(执行环境)、监考员(安全监控)、快递员(任务分发)和阅卷老师(结果处理)。
系统的核心是一个高度并发的代码执行服务,能够同时处理多达45000个代码执行请求。每个代码执行都在完全隔离的环境中进行,就像每个学生都有自己独立的考试房间一样。即使某个代码出现问题导致执行环境崩溃,也不会影响其他代码的执行或主训练程序的运行。
为了提高效率,系统采用了智能的任务调度策略。任务分发器会根据各个执行节点的当前负载情况,动态地分配代码执行任务。繁忙的节点会收到较少的新任务,而空闲的节点则会承担更多工作。这种负载均衡确保了整个系统的处理能力得到充分利用。
在安全性方面,每个执行环境都有严格的资源限制和时间限制。代码执行时间超过预设阈值(通常是几秒钟)会被强制终止,防止无限循环或过度计算消耗系统资源。同时,执行环境被限制只能进行数学计算相关的操作,无法访问网络或系统文件,确保安全性。
另一个技术创新是动态负载均衡的rollout调度器。在传统的AI训练中,训练样本通常被平均分配到各个GPU上。但在智能体训练中,不同样本的计算复杂度差异巨大。有些推理过程可能只需要几轮简单计算,而有些则可能需要十几轮复杂的代码执行。
如果仍然使用静态分配策略,就会出现"木桶效应":处理复杂样本的GPU需要更长时间,而处理简单样本的GPU会提前完成并进入等待状态。这种不均衡会显著降低整体训练效率。
研究团队开发的动态调度器会实时监控各个GPU的KV缓存使用情况(这是衡量GPU当前工作负载的重要指标),然后根据可用容量动态分配新的训练样本。忙碌的GPU会收到较少的新任务,而空闲的GPU则会承担更多工作。这种策略确保了所有GPU都能保持高效工作状态。
整个基础设施的另一个亮点是异步处理机制。代码执行请求被发送后,训练程序不会傻傻地等待结果返回,而是继续处理其他任务。当代码执行完成后,结果会通过消息队列异步返回给对应的训练进程。这种设计大大提高了系统的整体吞吐量。
四、精心设计的训练策略:从零开始培养AI的推理能力
训练rStar2-Agent的过程就像培养一个从零开始的学生成为数学高手,整个过程需要精心规划的课程安排和循序渐进的能力培养。与许多现有AI系统不同,rStar2-Agent的训练并没有依赖大量预先准备好的推理数据,而是从最基础的工具使用开始,逐步建立起复杂的数学推理能力。
训练的第一阶段被研究团队称为"非推理冷启动",这个阶段的目标并不是教会AI如何解决数学问题,而是让它学会基本的"生活技能":如何理解人类的指令、如何使用工具、如何按照规定的格式输出结果。这就像教一个孩子在学数学之前先要学会拿笔、认字和听懂老师的话一样。
在这个阶段,AI学习的内容包括函数调用、JSON格式处理、基础编程语法等。研究团队特意避免在这个阶段加入任何复杂的数学推理内容,因为他们发现过早引入推理训练可能会导致AI产生固化的思维模式,反而不利于后续的灵活学习。
第二阶段是数据精心筛选和清理。训练一个AI系统就像培养一个学生,喂给它什么样的题目,它就会形成什么样的解题习惯。研究团队对这一点极其重视,他们制定了严格的数据筛选标准。
最重要的原则是:所有训练题目的答案必须是整数。这个看似简单的要求背后有着深刻的考虑。在数学中,很多问题的答案可能是复杂的代数表达式,比如"√2 + π/3"和"1.414 + 1.047"虽然在数学上等价,但对于计算机程序来说很难准确判断它们是否相同。如果训练数据中包含这类歧义答案,AI可能会因为答案格式的细微差别而收到错误的反馈,从而学到错误的推理模式。
通过限制答案为整数,研究团队确保了训练过程中奖励信号的可靠性。这就像在教学生解题时,先从答案明确的问题开始,避免因为答案表达方式的不同而造成混乱。
经过严格筛选,研究团队从超过10万道候选题目中筛选出4.2万道高质量的数学问题。这些题目来源广泛,包括数学竞赛题、在线数学社区的讨论题,以及需要编程技能的Project Euler问题。每一道题目都经过了多轮验证,确保答案的准确性和问题描述的清晰性。
第三阶段是多阶段强化学习训练,这是整个训练过程的核心。研究团队采用了一种渐进式的训练策略,就像体育训练中的"循序渐进"原则一样。
训练分为三个子阶段,每个阶段都有不同的重点和挑战。第一个子阶段限制AI的回答长度在8000个词汇以内,这迫使AI学会简洁地表达推理过程。许多AI系统在学习初期会产生冗长而重复的输出,就像一个学生为了凑字数而写出大量废话一样。通过严格的长度限制,AI被迫学会更高效的推理方式。
有趣的是,在这个阶段初期,AI经常会因为超出长度限制而被截断回答。研究团队原本担心这会影响训练效果,但实验结果显示,AI很快学会了自我调整。它开始减少不必要的重复,更加精准地使用编程工具,推理过程变得越来越简洁。
第二个子阶段将长度限制放宽到12000个词汇,给予AI更多的表达空间来处理复杂问题。在这个阶段,AI的数学推理能力有了显著提升,能够处理需要多步推理和复杂计算的问题。
第三个子阶段采用了一个巧妙的策略:难题集中训练。当AI在前两个阶段的训练中表现越来越好时,原来的训练题目对它来说变得过于简单。就像一个学生掌握了基础知识后需要挑战更难的题目一样,研究团队筛选出那些AI仍然难以解决的问题,专门针对这些难题进行强化训练。
这种方法的效果非常显著。通过集中攻克难点,AI在最后125个训练步骤中实现了从优秀到卓越的跨越,最终达到了与顶级AI系统相媲美的数学推理能力。
整个训练过程只用了510个步骤,相比其他需要数千甚至数万步训练的AI系统,rStar2-Agent的训练效率可谓惊人。研究团队将这种高效归因于精心设计的训练策略和GRPO-RoC算法的优越性能。
五、卓越的性能表现:小模型的大能力
rStar2-Agent的测试结果让整个AI研究社区为之惊叹。这个仅有140亿参数的模型在各项数学推理测试中的表现,彻底颠覆了人们对模型规模与能力关系的传统认知。
在AIME24(2024年美国数学邀请赛)测试中,rStar2-Agent取得了80.6%的正确率,这个成绩超越了OpenAI的o3-mini模型(79.6%),也胜过了DeepSeek-R1这个拥有6710亿参数的巨型模型(79.8%)。更令人印象深刻的是,它还超越了Claude-Opus-4.0的思考模式(76.0%)。
在AIME25测试中,rStar2-Agent达到了69.8%的准确率,同样超越了多个知名AI系统。在HMMT25(哈佛-麻省理工数学竞赛)中,它获得了52.7%的成绩,显示了在不同类型数学问题上的稳定表现。
这些成绩的意义远远超出了数字本身。AIME和HMMT都是面向高中数学天才的顶级竞赛,参赛者通常都是各地的数学精英。能够在这些竞赛中取得如此高的正确率,意味着rStar2-Agent已经具备了接近人类数学专家的推理能力。
更令人惊喜的是rStar2-Agent在推理效率方面的表现。传统的大型AI系统在解决数学问题时往往会产生极其冗长的推理过程,动辄数万字的回答让人望而却步。而rStar2-Agent的平均回答长度只有9000-11000个词汇,不到其他系统的一半,却能达到更高的准确率。
这种效率优势不仅体现在用户体验上,也有重要的实用价值。更短的回答意味着更低的计算成本、更快的响应速度,以及更好的可读性。就像一个优秀的数学老师能够用简洁明了的语言解释复杂概念一样,rStar2-Agent学会了用最经济的方式表达数学推理过程。
研究团队还测试了rStar2-Agent在数学以外领域的表现,结果同样令人惊喜。尽管它只使用数学问题进行训练,但在科学推理、工具使用和一般对话等任务中都表现出了良好的泛化能力。
在GPQA-Diamond科学推理测试中,rStar2-Agent达到了60.9%的准确率,超越了DeepSeek-V3的59.1%。这说明通过数学推理训练获得的能力能够很好地迁移到其他科学领域。
在BFCL v3工具使用测试中,rStar2-Agent获得了60.8%的成绩,显示了它在工具调用方面的熟练程度。在IFeval指令遵循和Arena-Hard通用对话测试中,它也保持了与训练前相当的水平,说明专门的数学训练并没有损害它在其他任务上的表现。
六、深入剖析:AI如何学会"智慧推理"
为了理解rStar2-Agent为什么能够达到如此出色的性能,研究团队进行了详细的行为分析。他们发现,经过智能体强化学习训练的AI展现出了一些非常有趣的认知行为模式,这些模式与人类专家的推理方式有着惊人的相似性。
通过分析AI在推理过程中的token熵值分布,研究团队发现了两种特别有价值的高熵(高不确定性)token模式。第一种是"分叉token",这些词汇通常出现在AI需要做出关键决策的时刻。比如当AI说出"但是"、"等等"、"让我重新检查"这类词语时,往往预示着它即将改变推理方向或者发现潜在问题。
这种行为类似于人类数学家在解题过程中的自我质疑和反思。一个经验丰富的数学家在推理过程中会时常停下来问自己:"这个步骤对吗?""有没有更简单的方法?""我是不是遗漏了什么?"rStar2-Agent学会了类似的自我监控能力。
第二种是"反思token",这些词汇出现在AI接收到编程工具反馈之后。当Python代码执行返回结果或错误信息时,AI会产生大量高熵token来分析这些反馈。比如看到错误信息后,AI可能会说"这个错误提示说明了..."、"看起来问题出在..."、"让我换个思路..."等等。
这种对工具反馈的深度分析体现了rStar2-Agent的一个重要能力:环境适应性学习。它不仅能够使用编程工具,更重要的是能够从工具的反馈中学习和调整策略。这就像一个实验科学家不仅会做实验,还会仔细分析实验结果,从中获得新的洞察。
研究团队还发现了一个有趣的现象:编程相关的token通常具有较低的熵值,这意味着AI在写代码时表现得相当自信和确定。这可能是因为基础模型在预训练阶段就接触了大量Python代码,已经形成了稳定的编程模式。但在解读代码执行结果时,AI的不确定性会增加,促使它进行更深入的思考。
通过对比分析,研究团队发现GRPO-RoC算法确实有效地减少了低质量推理行为。使用传统训练方法的AI经常会产生冗长而重复的输出,工具调用错误率居高不下。而使用GRPO-RoC训练的AI不仅准确率更高,推理过程也更加简洁优雅。
一个具体的例子很好地说明了这种改进。在解决一个关于数论的复杂问题时,传统方法训练的AI可能会写出多个功能重复的代码块,每次都因为小错误而失败,然后不断尝试修正。整个过程冗长混乱,虽然最终可能找到正确答案,但过程效率极低。
而rStar2-Agent会更加谨慎地规划代码结构,通常第一次就能写出基本正确的代码。即使出现错误,它也能快速定位问题所在并进行精准修正。整个推理过程体现出了一种"工程师思维":先思考,再行动,出错后快速调试。
七、技术创新的深层价值:重新定义AI训练效率
rStar2-Agent的成功不仅在于其出色的性能表现,更在于它所代表的技术理念转变。在AI发展的历史上,人们长期遵循着"规模至上"的逻辑:更大的模型、更多的数据、更强的计算力。然而,rStar2-Agent用实际行动证明了"巧干胜过蛮干"的道理。
这种技术理念的转变具有深远的意义。首先,它大大降低了AI研究和应用的门槛。训练rStar2-Agent只需要64个GPU和一周时间,这样的资源需求对于许多研究机构和公司来说都是可以承受的。相比之下,训练一个6710亿参数的模型需要数千个GPU和数月时间,成本高达数百万美元。
这种效率优势使得更多的研究团队能够参与AI前沿研究,有助于加速整个领域的创新进程。就像个人计算机的普及促进了软件产业的蓬勃发展一样,高效的AI训练方法可能会带来更多创新应用的涌现。
其次,rStar2-Agent展示了"能力与规模解耦"的可能性。传统观念认为,要实现强大的AI能力就必须构建庞大的模型。但rStar2-Agent证明,通过精心设计的训练策略和算法创新,小模型也能达到大模型的性能水平。
这种解耦不仅有技术价值,也有重要的社会意义。更小的模型意味着更低的运行成本、更快的响应速度、更好的隐私保护(可以在本地部署),以及更广泛的应用可能性。这可能会推动AI技术从"少数精英的玩具"向"普惠大众的工具"转变。
GRPO-RoC算法的创新也为强化学习领域贡献了新的思路。传统的强化学习方法往往只关注最终结果,而忽略过程质量。这在某些场景下可能导致AI学会一些"投机取巧"的策略,虽然能达到目标但过程不够优雅。
GRPO-RoC引入的过程质量评估机制,让AI不仅学会做正确的事情,还学会正确地做事情。这种理念可能对其他需要过程可靠性的AI应用场景有重要启发,比如自动驾驶、医疗诊断、金融决策等。
研究团队构建的分布式训练基础设施也为AI社区提供了宝贵的工程经验。如何高效地处理大规模并发任务、如何确保系统的可靠性和安全性、如何实现智能的负载均衡,这些工程挑战在AI系统越来越复杂的今天变得格外重要。
八、未来展望:智能体AI的广阔前景
rStar2-Agent的成功开启了AI发展的一个新方向:从单纯的"思维模拟"向"工具增强智能"转变。这种转变可能会带来AI应用方式的根本性改变。
在教育领域,未来的AI助教可能不仅能够解释数学概念,还能实时演示计算过程、生成可视化图表、甚至指导学生进行编程练习。学生们将拥有一个既博学又耐心的个人导师,能够根据每个学生的学习节奏和理解能力调整教学方式。
在科学研究领域,AI科学家可能会成为人类研究者的得力助手。它们能够快速验证假设、进行大规模数值模拟、分析复杂的实验数据,甚至提出新的研究思路。科学发现的速度可能会大大加快。
在工程设计领域,AI工程师可能会协助人类完成复杂的设计任务。从建筑设计到芯片设计,从药物研发到材料科学,AI都可能发挥重要作用。它们不仅能够进行理论计算,还能够调用各种专业软件进行仿真和验证。
当然,这种发展也带来了新的挑战。如何确保AI正确地使用工具?如何防止AI产生有害或危险的代码?如何在给予AI更大自主性的同时保持人类的控制?这些问题都需要深入研究和谨慎处理。
rStar2-Agent的研究团队已经意识到了这些挑战,并在系统设计中采取了多种安全措施。但随着AI系统变得越来越强大和自主,安全性考虑将变得越来越重要。
从更长远的角度来看,rStar2-Agent所代表的技术路线可能会推动AI向更接近人类认知方式的方向发展。人类的智能很大程度上体现在使用工具、从环境中学习、与外界互动的能力上。如果AI系统也能掌握这些能力,那么人工智能与人类智能的边界可能会变得更加模糊。
这并不意味着AI会取代人类,而可能意味着一种全新的人机协作模式的出现。人类擅长创造性思考、价值判断、情感理解,而AI擅长快速计算、大量信息处理、精确执行。两者的结合可能会产生比单独的人类或AI更强大的智能系统。
说到底,rStar2-Agent的意义不仅在于它解决了多少数学问题,更在于它展示了AI发展的一种全新可能性。它告诉我们,AI不必局限于模仿人类的思维过程,而可以发展出独特的、与工具深度融合的智能形式。这种智能可能比传统的AI更实用、更可靠,也更容易与人类协作。
当我们回顾AI发展的历程时,可能会发现rStar2-Agent标志着一个重要的转折点:从追求更大的模型规模,转向追求更智能的学习方式;从模仿人类思维,转向创造增强型智能;从封闭的推理系统,转向开放的工具生态。这些转变可能会深刻地影响AI技术的未来发展方向,也会改变人类与AI系统的互动方式。
Q&A
Q1:rStar2-Agent相比传统大模型有什么优势?
A:rStar2-Agent虽然只有140亿参数,但通过智能体强化学习和工具使用能力,在数学推理上达到了6710亿参数DeepSeek-R1的水平。它的优势包括:训练成本低(只需64个GPU训练一周)、推理效率高(回答长度只有传统模型一半)、准确率更高(AIME24达到80.6%),同时具有很好的泛化能力。
Q2:GRPO-RoC算法解决了什么关键问题?
A:GRPO-RoC算法主要解决了AI在使用编程工具时的"环境噪声"问题。传统方法只看最终答案对错,导致AI学会了"带病工作"——即使推理过程中工具调用错误频繁,只要最终答案正确就认为可行。GRPO-RoC不仅要求答案正确,还优先学习那些推理过程优雅、工具使用恰当的解答,让AI学会了更高质量的推理方式。
Q3:rStar2-Agent的工具使用能力是如何实现的?
A:rStar2-Agent通过多轮对话机制与Python编程环境进行交互。它会在推理过程中主动调用代码来进行复杂计算,接收执行结果后进行分析反思,必要时调试修正。整个过程类似人类数学家使用计算工具的方式。系统还构建了专门的分布式代码执行环境,能同时处理45000个并发代码请求,确保训练的高效性和安全性。