当前位置: 首页 » 资讯 » 新科技 » 正文

阿里新突破:让AI智能体像经验丰富的研究员一样进行深度调研

IP属地 中国·北京 科技行者 时间:2026-04-09 08:41:39


这项由阿里巴巴国际数字商务集团研发的Marco DeepResearch技术报告于2026年3月31日发布,论文编号为arXiv:2603.28376v1,研究团队由多位研究员共同完成,通讯作者是王龙跃。有兴趣深入了解的读者可以通过该论文编号查询完整论文内容。

当我们想要深入了解一个复杂问题时,通常需要在网上搜索大量信息,阅读多个网页,对比不同来源的内容,最终得出结论。这个过程既耗时又需要很强的分析能力。现在,人工智能已经可以承担这样的工作,就像一个永远不知疲倦的研究助理,能够自动浏览网页、搜集信息、分析数据,并提供深入的研究报告。

然而,现有的AI研究智能体存在一个关键问题:它们缺乏"核查验证"的能力。就好比一个研究员在收集资料时,从不核实信息的准确性,也不质疑自己的推理过程,结果往往会得出错误的结论。阿里巴巴的研究团队发现,这种缺乏验证机制的问题贯穿了AI研究智能体的三个关键环节:数据准备、学习过程和实际工作时的推理过程。

为了解决这个问题,研究团队开发了Marco DeepResearch,这是一个8B规模的深度研究智能体。与传统的AI助手相比,Marco DeepResearch最大的特点是在每个关键步骤都加入了"自我验证"机制,就像一个谨慎的研究员会反复检查自己的工作一样。

这项研究的创新之处在于,它是首次系统性地将验证机制贯穿到AI研究智能体开发的全过程。在多个权威测试基准上,Marco DeepResearch不仅超越了同等规模的其他AI研究助手,甚至在某些任务上达到了比自己大3-4倍的大型AI系统的性能水平。这种成就就像是让一个8岁的孩子在某些研究任务上达到了成年专家的水平。

**一、问题的根源:缺乏验证的AI研究助手为何容易出错**

当我们使用现有的AI研究智能体时,经常会发现一个令人困扰的现象:它们有时会提供看似合理但实际错误的答案。这种现象背后的原因可以用"三重盲点"来解释。

第一个盲点出现在数据准备阶段。目前大多数AI系统的训练数据都是通过自动化方法生成的问答对。研究团队发现,为了增加问题的难度,许多系统会故意模糊化问题中的关键信息,比如将"苹果公司的创始人是谁"改写为"那家以水果命名的科技公司的创立者是谁"。这种做法虽然增加了问题的复杂性,但往往会产生多个可能的正确答案,就像问"红色的水果有哪些"时,答案可能是苹果、樱桃或草莓等多种选择。当训练数据本身就存在歧义时,AI系统自然无法学会给出准确的答案。

第二个盲点存在于学习过程中。现有的AI研究智能体在学习如何解决问题时,通常采用"直达目标"的方式,即从问题直接跳到答案,缺少中间的验证步骤。这就像一个学生做数学题时,只记住了最终答案,却不知道如何检验答案是否正确。当AI遇到复杂问题时,它往往会接受第一个看起来合理的答案,而不会进一步验证这个答案是否真正符合问题的要求。

第三个盲点出现在实际工作阶段。当我们给AI智能体布置一个研究任务时,它通常会设定一个最大搜索次数的限制,比如最多浏览100个网页。然而,现有系统缺乏有效的"时间管理"机制。它们可能会在错误的方向上浪费大量时间和资源,就像一个研究员在图书馆里漫无目的地翻阅无关书籍,直到时间耗尽还没找到真正需要的信息。

这些问题的累积效应就是错误传播。一个小错误会引发连锁反应,导致后续的每个步骤都建立在错误的基础上,最终得出完全偏离实际的结论。研究团队意识到,要解决这个问题,需要从根本上改变AI研究智能体的设计理念,让它们学会像经验丰富的研究员一样,在每个关键步骤都进行自我验证和质疑。

**二、核心创新:构建会自我验证的智能研究助手**

Marco DeepResearch的核心理念是将"验证优先"的思维模式贯穿到AI研究智能体的整个生命周期中。这种设计就像培养一个严谨的研究员,不仅要教会他如何收集信息,更要教会他如何质疑和验证信息的可靠性。

**构建可靠的训练数据:从源头保证质量**

解决数据质量问题的第一步是改革问答对的生成方式。研究团队开发了两套互补的数据合成方法,就像使用两种不同的方法来验证同一个实验结果。

第一种方法基于知识图谱进行"逆向工程"式的问题构建。传统方法是先有问题再找答案,而新方法是先确定一个明确的答案,然后反向构建能唯一指向这个答案的问题。这个过程类似于侦探破案:先知道凶手是谁,然后设计一系列线索,确保只有这个凶手符合所有证据。

具体来说,系统首先会在知识库中选择一个目标实体作为答案,比如"埃菲尔铁塔"。然后,它会分析这个实体的各种属性:空间位置(法国巴黎)、时间信息(1889年建成)、数值特征(高324米)、类别特征(铁制建筑)以及关系信息(为世界博览会而建)。接下来,系统会通过知识图谱搜索,找到能够通过多步推理到达这个答案的路径。

关键的创新在于"对抗式唯一性验证"过程。这个过程包含三个角色:生成器、攻击者和分析器。生成器首先创建2到3个约束条件来描述目标答案。攻击者则试图找到满足这些条件但不是目标答案的其他实体。如果攻击者成功找到了"反例",分析器就会添加新的约束条件来排除这些反例。这个过程会持续进行,直到找不到任何反例为止,从而确保问题的答案是唯一的。

第二种方法采用智能体探索真实网络环境的方式生成数据。与基于知识图谱的方法不同,这种方法让AI智能体在真实的互联网环境中自主探索,收集信息并构建问题。这种方法的优势在于能够获得更贴近现实、覆盖面更广的问题类型。

在这个过程中,系统采用"证据优先"的问题构建策略。智能体首先在网上探索并收集可靠的证据,然后基于这些已验证的证据构建问题,而不是凭空想象问题。这就像记者写新闻报道时,先收集确凿的事实资料,再围绕这些事实组织文章结构。

为了确保生成问题的质量,系统还设计了多层质量验证流程。验证智能体会检查事实一致性和证据支撑度,而闭卷过滤器则会排除那些不需要搜索就能回答的简单问题。剩余的候选问题会交给独立的搜索智能体进行解答,最终验证确认推理深度符合目标难度,并且不存在其他有效答案。

当某个样本在任何阶段验证失败时,系统不会简单地丢弃它,而是采用"诊断-修正"循环。验证智能体会提供结构化的诊断反馈,指出问题所在,比如约束不足、存在捷径路径、深度不够或证据冲突等。问题生成智能体根据这些反馈对证据选择、约束设计和问题结构进行针对性调整。这个诊断-修正循环会持续进行,直到样本同时满足真实性、唯一性和难度要求。

**学习过程的验证驱动改进**

在训练数据准备就绪后,下一个挑战是如何让AI智能体学会在解决问题的过程中进行自我验证。传统的训练方法类似于让学生背诵标准答案,而Marco DeepResearch的方法更像是教学生掌握解题思路和验证技巧。

研究团队设计了一个多智能体验证框架来生成高质量的训练轨迹。这个框架包含三个角色:主智能体负责分解复杂问题并整合子任务结果,搜索子智能体负责解决每个具体的子任务,验证子智能体则对子任务输出和最终答案进行独立的第三方验证。

这种设计的巧妙之处在于,验证智能体使用网络搜索工具独立验证答案的正确性,而不是简单地检查逻辑一致性。当验证失败时,相应的步骤会被修正和重新执行,因此训练轨迹会明确记录验证驱动的纠错行为模式。最终,多智能体轨迹会被转换为单智能体ReAct风格的轨迹用于训练。

除了成功的轨迹,系统还会收集那些最初得出错误答案的轨迹。对于这些失败案例,验证智能体会诊断失败原因并提供可操作的反馈。基于这些反馈,系统会重新执行失败的轨迹,并保留那些成功恢复到正确答案的样本。这种"从错误中学习"的机制让AI智能体不仅知道如何做对,还知道如何从错误中恢复。

**推理时的智能验证与计算资源优化**

Marco DeepResearch在实际工作时采用了"验证引导的测试时扩展"策略。这种方法就像给研究员设定一个时间和资源预算,让他在有限的条件下尽可能做出最好的研究成果。

系统的核心机制是"全部丢弃"策略。当预定义的退化信号被触发时(比如达到最大步数或无法解决问题),系统会移除所有累积的工具调用历史和中间推理输出,只保留原始查询和系统提示,然后从全新的上下文重新开始。这种重置机制让智能体能够探索新的搜索路径,减少单一轨迹中的错误传播。

验证引导机制是另一个关键创新。每当智能体产生一个候选答案时,系统都会进行基于规则的检查和以智能体为判断者的验证。如果当前时间小于最大限制,智能体可以继续探索并提出新的候选答案,每个候选答案都会独立验证。当达到时间限制或过程收敛时,系统会对所有候选答案进行联合验证,生成最终答案。

这两个组件是互补的:全部丢弃策略通过重置退化上下文提高轨迹质量,而验证引导的测试时扩展则提高答案质量。它们共同实现更有效的测试时扩展,无需改变模型参数,就能在困难问题上获得更强的推理时增益。

**三、训练方法:让AI学会严谨的研究态度**

Marco DeepResearch的训练过程采用了两阶段方法,类似于培养一个研究员的成长路径:先进行基础技能培训,再通过实践反馈进行能力提升。

**监督微调:打好基础技能**

第一阶段是监督微调,就像给新手研究员提供标准教材和示范案例。训练使用token级别的交叉熵损失,并应用损失掩码,确保只有助手回复token对优化有贡献。这意味着系统只学习如何生成恰当的回应,而不会学习重复用户指令或工具响应内容。

损失掩码的设计很关键。对于每个token,如果它属于助手回复部分,掩码值为1,贡献损失计算。如果它属于指令或工具响应部分,掩码值为0,不参与优化。这种设计确保AI智能体专注于学习如何生成高质量的推理和回应,而不是简单地模仿输入内容。

在训练数据构成方面,系统结合了开源数据和合成数据。开源数据包括2WikiMultihopQA、BeerQA、ASearcher、DeepDive、QA-Expert-Multi-Hop-QA和REDSearcher等多个高质量数据集。合成数据则包括来自内部应用的真实商业开发数据集,以及通过验证数据合成方法生成的超过12000个图谱式和智能体式问答样本。此外,研究团队还保留了超过2000个高质量问答样本用于强化学习训练。

轨迹数据通过前沿基础模型合成,包括Qwen3.5-Plus、GLM-5和Kimi-K2等,随后进行数据清洗,比如工具调用错误修正等预处理步骤。

**强化学习:通过实践反馈提升能力**

第二阶段采用强化学习进行进一步优化,类似于让研究员在实际工作中接受导师的反馈和指导。系统使用组相对策略优化(GRPO)方法,通过组内相对优势驱动更新。

具体来说,对于每个查询,系统从旧策略中采样一组rollout结果,然后优化一个目标函数。这个函数结合了策略比重要性采样比、相对优势估计、裁剪机制和KL散度正则化项,确保学习过程稳定且有效。

相对优势通过组内奖励标准化计算得出,即用每个样本的奖励减去组内奖励均值,再除以组内奖励标准差。这种设计让系统关注相对性能而非绝对分数,有助于减少评估偏差。

奖励机制采用基于结果的二元奖励,平衡奖励质量和计算成本。系统使用两阶段LLM评判管道:快速主要评判器(Qwen-Turbo-Latest)评估所有样本,不确定或低置信度案例会提升到次级评判器(GPT-4.1)进行重新评估。如果评判结果为正确,奖励为1,否则为0。

**四、技术实现:构建高效可靠的智能体架构**

Marco DeepResearch的技术实现体现了系统工程的严谨性和实用性考量。研究团队以Qwen3-8B作为骨干模型,这个选择平衡了性能和计算效率的需求。

**模型架构与优化**

为了处理长序列研究任务,系统使用YaRN技术将上下文窗口扩展到128K token。这种扩展能力对深度研究任务至关重要,因为复杂的研究问题往往需要整合来自多个网页的大量信息。

监督微调和强化学习都在64个A100 GPU上使用Megatron框架进行。为了提高系统效率和稳定性,研究团队实施了多项工程优化:基于Redis的缓存系统处理重复查询和页面访问,指数退避重试机制应对临时故障,异步非阻塞工具调用提高并发性能,异步奖励计算与模型更新流水线化,以及将WebVisit摘要模型作为独立训练集群服务的同步部署。

**评估设置与基准测试**

研究团队在六个深度搜索基准上评估Marco DeepResearch的性能。BrowseComp测量智能体通过网络导航的信息寻找能力,BrowseComp-ZH是评估中文环境下智能体信息搜索的对应基准。GAIA(仅文本版)包含通用AI助手的真实多步问题。xBench-DeepSearch涵盖跨多个领域的深度搜索任务。WebWalkerQA专注于多步网络导航和信息提取。DeepSearchQA评估通过多源检索、实体解析和停止标准推理的详尽答案集生成能力。

基线系统分为三组进行比较。基础模型工具组包括GLM-4.7、Minimax-M2.1、DeepSeek-V3.2、Kimi-K2.5、Claude-Sonnet/Opus、OpenAI-o3、GPT-5 High和Gemini-3-Pro。30B规模以上训练智能体组包括Tongyi DeepResearch、WebSailor-v2、MiroThinker多个版本、DeepMiner、OpenSeeker-30B-SFT和SMTL。8B规模及以下训练智能体组包括MiroThinker-v1.0-8B、WebExplorer-8B-RL、AgentCPM-Explore-4B和RE-TRAC-4B。

**实现细节与系统配置**

评估遵循先前工作的设置,在最多600个工具调用的预算下评估Marco DeepResearch智能体。解码使用温度0.7、top-p 0.95和最大生成长度16384个token的参数配置。

训练数据来源包括开源数据和合成数据两个主要类别。开源数据涵盖2WikiMultihopQA、BeerQA、ASearcher、DeepDive、QA-Expert-Multi-Hop-QA和REDSearcher等经典数据集。合成数据包括来自内部应用的真实电商业务开发数据集,以及通过验证数据合成方法生成的超过12000个图谱式和智能体式问答样本。

研究团队还收集了超过2000个高质量问答样本专门用于强化学习训练。轨迹数据通过包括Qwen3.5-Plus、GLM-5和Kimi-K2在内的前沿基础模型合成,并进行了数据清洗处理,包括工具调用错误修正等预处理步骤。

**五、实验结果:小模型的大能量**

Marco DeepResearch的实验结果展现了验证中心设计的显著效果,证明了通过系统性验证机制可以让相对较小的模型达到令人瞩目的性能水平。

**主要性能表现**

实验结果显示,Marco DeepResearch-8B在大多数基准测试中超越了其他8B规模的开源深度搜索训练智能体。在探索密集型任务中,它取得了同规模类别中的最佳成绩,包括BrowseComp(31.4分)、BrowseComp-ZH(47.1分)、WebWalkerQA(69.6分),以及xBench-DeepSearch(在2505分割上82.0分,在2510分割上42.0分)。

在其他三个基准测试中,Marco DeepResearch智能体仍保持高度竞争力。在GAIA文本版任务中,它仅以0.5分的微弱差距位居第二,仅次于RE-TRAC-4B。值得注意的是,Marco DeepResearch-8B在多个基准上接近甚至超越了一些竞争性的30B规模深度搜索智能体,比如Tongyi DeepResearch。

这些结果验证了提出的问答数据合成、轨迹构建方法和测试时扩展策略的有效性,证明优化后的8B模型可以有效缩小与大型基础模型在复杂网络导航和信息寻找任务中的性能差距。

**详细分析与验证效果**

为了深入理解Marco DeepResearch的优势来源,研究团队进行了全面的分析实验。数据统计分析表明,与现有多跳和深度搜索开源数据集相比,合成样本具有更长的token序列和更多的工具调用轮次。这种转变对深度搜索训练很重要:更长的轨迹提供跨步推理的密集监督,更深的工具交互让模型接触更真实的长期决策模式。

通过对比分析,研究团队发现在相同的ReAct风格轨迹构建方法下使用相同前沿智能体时,生成数据显示出比开源数据更低的可回答率(29.0%对51.7%),表明分布更困难。人工评估100个样本发现,少于10%存在明显的问题-答案不匹配,其余问答样本都有效但具有挑战性。

问答数据验证的效果通过对照实验得到证实。在相同数据规模下,集成对抗唯一性验证步骤相比没有验证的基线版本,在多数基准上提升了下游性能。通过过滤嘈杂和模糊样本,验证为后续轨迹构建和训练产生了更清洁、更可靠的数据。

验证驱动轨迹构建的消融研究显示,使用明确验证模式的多智能体轨迹增强单智能体ReAct轨迹后,在所有基准上一致提升性能,平均改进2.03分。这些结果验证了带有验证模式的轨迹的贡献。

强化学习阶段在所有五个基准上都显示出相对于监督微调检查点的一致收益。改进范围从0.8到6.7分,平均收益为2.6分,确认强化学习训练在构建的挑战性问答数据上提供了监督微调之上的稳健额外优化。

**测试时扩展策略验证**

验证引导的测试时扩展策略展现了显著效果。与强化学习基线相比,性能在GAIA上提升8.7分,在xBench-DeepSearch-2505上提升7.0分,在BrowseComp-200-sample上提升15.0分,在BrowseComp-ZH上提升17.8分,平均收益达到12.1分,表明了测试时扩展策略的潜力。

上下文窗口扩展的实验证实了长上下文训练对需要许多工具调用和跨页面证据聚合的深度搜索任务的重要性。将训练上下文窗口从64K扩展到128K在两个基准上都产生一致收益:BrowseComp-200-sample提升2.3分,BrowseComp-ZH提升0.8分,平均改进1.6分。

**六、研究意义与未来展望**

Marco DeepResearch的成功不仅仅是技术上的突破,更重要的是它证明了"验证优先"设计理念在AI智能体开发中的重要价值。这项研究为AI研究智能体的发展提供了新的思路和方向。

**对AI智能体发展的启示**

这项研究最重要的贡献在于系统性地解决了现有深度研究智能体中缺乏明确验证的瓶颈问题。通过在问答数据合成、轨迹构建和推理三个关键阶段引入验证机制,Marco DeepResearch展示了如何防止错误传播并充分利用测试时计算资源。

验证中心设计的成功说明,AI系统的可靠性不仅依赖于模型规模的增大,更需要在架构设计层面引入系统性的质量控制机制。这种设计理念可能会影响未来AI智能体的开发方向,推动研究者更加重视验证和质量保证机制的设计。

实验结果证明,通过精心设计的验证机制,相对较小的模型可以在特定任务上达到甚至超越大型模型的性能。这种发现对于资源受限的应用场景具有重要意义,也为AI技术的民主化和普及提供了新的可能性。

**技术创新的深远影响**

Marco DeepResearch在多个技术层面的创新为后续研究奠定了基础。对抗式唯一性验证方法为自动化高质量数据生成提供了新思路,这种方法可能被应用到其他需要高质量训练数据的AI任务中。

验证驱动的轨迹构建方法展示了如何在训练过程中显式地教会AI系统进行自我检查和纠错。这种能力对于开发可信赖的AI系统至关重要,特别是在需要高可靠性的应用场景中。

测试时的验证引导扩展策略提供了一种在不改变模型参数的情况下提升性能的方法。这种方法的灵活性使其可以根据具体任务的重要性和可用计算资源进行动态调整。

**实际应用前景**

Marco DeepResearch的成功为深度研究智能体的实际应用开辟了新的可能性。在学术研究领域,这样的智能体可以协助研究者进行文献调研、数据收集和初步分析,大幅提高研究效率。

在商业应用方面,验证机制增强的研究智能体可以用于市场分析、竞争情报收集、技术趋势分析等需要大量信息搜集和分析的任务。其可靠性的提升使其更适合应用于对准确性要求较高的商业决策支持场景。

在教育领域,这种智能体可以作为学生的研究助手,帮助他们学习如何进行系统性的信息搜集和分析,同时通过验证机制确保信息的准确性和可靠性。

**挑战与改进方向**

尽管Marco DeepResearch取得了显著成果,但仍存在一些挑战和改进空间。验证机制虽然提高了结果的可靠性,但也增加了计算成本。如何在保持验证效果的同时进一步优化计算效率是一个值得研究的问题。

当前的验证机制主要基于网络搜索和逻辑推理,对于一些需要专门知识或实时信息的问题,验证的准确性可能还有提升空间。未来的研究可以探索结合更多验证源和方法的多模态验证机制。

另外,如何让验证机制适应不同领域和任务的特殊需求也是一个重要的研究方向。不同领域可能需要不同的验证标准和方法,开发更加灵活和可定制的验证框架具有重要价值。

说到底,Marco DeepResearch的成功证明了"质量胜过数量"这一朴素道理在AI发展中的重要性。通过系统性地引入验证机制,一个相对较小的模型可以在复杂任务上展现出令人瞩目的能力。这种成就不仅是技术上的进步,更是AI系统设计理念的重要转变。随着这种验证中心设计思想的推广应用,我们有理由期待更加可靠、高效的AI智能体在各个领域发挥重要作用,真正成为人类研究和工作的得力助手。

Q&A

Q1:Marco DeepResearch和普通AI助手有什么区别?

A:Marco DeepResearch最大的特点是在每个关键步骤都加入了"自我验证"机制,就像一个谨慎的研究员会反复检查自己的工作。普通AI助手往往缺乏这种核查验证能力,容易在收集资料时不核实信息准确性,也不质疑自己的推理过程,结果往往会得出错误结论。而Marco DeepResearch会像经验丰富的研究员一样,在数据准备、学习过程和实际工作的每个环节都进行质疑和验证。

Q2:为什么Marco DeepResearch只有8B规模却能超越30B的大模型?

A:这主要得益于"验证优先"的设计理念。Marco DeepResearch通过系统性的验证机制解决了错误传播问题,而不是单纯依靠增大模型规模。它在训练数据生成时确保问答对的唯一性和正确性,在学习过程中教会AI进行自我检查和纠错,在实际工作时采用验证引导的策略优化计算资源使用。这种精心设计的质量控制机制让相对较小的模型能够在特定任务上达到甚至超越大型模型的性能。

Q3:Marco DeepResearch的验证机制具体是如何工作的?

A:Marco DeepResearch的验证机制贯穿三个层面。在数据准备阶段,采用"对抗式唯一性验证",通过生成器、攻击者、分析器三个角色的博弈确保问题答案的唯一性。在训练阶段,使用多智能体框架,让验证智能体独立检查搜索结果和最终答案,失败时会修正重执行。在实际工作时,每当产生候选答案都会进行规则检查和智能体验证,并采用"全部丢弃"策略在遇到问题时重新开始,避免错误累积。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。