![]()
这项由OPPO AI Agent团队完成的研究发表于2026年2月,论文编号为arXiv:2602.22675v1,感兴趣的读者可以通过该编号查询完整论文。研究团队针对当前深度研究智能体面临的效率与泛化难题,提出了一个颠覆性的解决方案。
当我们谈论AI智能体时,不妨把它们想象成研究图书馆里的助手。传统的AI助手就像一个按部就班的学者,遇到问题时会坐在桌前长时间沉思,一步接一步地推理,虽然最终能得出答案,但过程缓慢且耗费大量时间。而OPPO团队提出的新方法则像是一个经验丰富的图书管理员,面对复杂问题时不是埋头苦思,而是同时派遣多个助手到不同的书架搜集信息,然后快速整合这些信息得出答案。这种"搜索多,思考少"的策略不仅更加高效,而且准确率还更高。
研究团队发现了一个有趣的现象:目前的深度研究智能体主要通过增加推理深度来提升性能,这就像让一个人在解数学题时不断地在草稿纸上演算更多步骤。虽然这种方法确实能提高准确率,但代价是推理成本和延迟时间大幅增加。更关键的是,这些智能体在面对不同类型任务时往往表现不佳,就像一个只会解代数题的学生突然遇到几何题时会手足无措。
为了解决这些问题,研究团队开发了名为SMTL(Search More, Think Less)的框架。这个框架的核心理念是用并行的证据获取替代顺序推理,就像用多线程处理替代单线程处理一样。在实际应用中,SMTL能够在最多100次交互步骤内,将BrowseComp基准测试中的平均推理步数减少70.7%,同时准确率从41.2%提升到48.6%。
这项研究的创新之处在于重新定义了智能体解决问题的方式。与其让AI花费大量时间进行深度思考,不如让它高效地搜集更多相关信息,然后基于这些信息快速做出决策。这种方法不仅适用于确定性的问答任务,也能很好地处理开放式的研究问题,展现出了优秀的泛化能力。
一、传统智能体的困境:深度推理的代价
当前的深度研究智能体面临着一个根本性的矛盾。为了提升性能,它们普遍采用增加推理深度和工具调用次数的策略,这就像让一个厨师为了做出更好的菜而不断增加烹饪步骤。虽然最终的菜品可能确实更加精致,但烹饪时间也会成倍增长,成本和等待时间都让人难以接受。
这种问题在搜索密集型场景中表现得尤为突出。传统智能体在处理复杂查询时,往往会陷入线性、顺序化的推理模式。它们像一个按照严格程序工作的调查员,必须完成第一步调查后才能开始第二步,每一步都要仔细分析和思考,整个过程虽然严谨但效率低下。
更令人头疼的是泛化问题。现有的智能搜索任务可以大致分为两类:一类是有明确答案的确定性问答任务,比如"谁是某公司的创始人"这样的问题;另一类是没有标准答案的开放式研究任务,比如"分析某个行业的发展趋势"。这两类任务的评估标准完全不同,前者看重准确性,后者更注重信息覆盖面、连贯性和综合质量。
问题在于,针对其中一种任务训练的智能体往往难以很好地处理另一种任务。这就像培养了一个专门回答选择题的学生,当他面对开放式论述题时就会感到无所适从。这种泛化能力的缺失意味着我们需要为不同任务类型开发不同的智能体,这显然不是一个理想的解决方案。
研究团队认为,现有智能体的主要瓶颈在于过度依赖线性的顺序推理。在搜索任务中,大量计算资源被用于模型内部的推理过程,而不是用于获取外部的有效证据。这种分配方式就像让一个研究员把大部分时间花在办公室里冥思苦想,而不是去实地调查搜集资料,显然不是最优的策略。
二、并行智能体工作流:同时处理多个子任务
SMTL框架的核心创新在于引入了并行智能体工作流,这种方法完全改变了智能体处理复杂任务的方式。传统方法就像一个人独自完成拼图,必须一片一片地慢慢拼接,而SMTL则像是召集了一个团队,每个成员同时负责拼图的不同区域,最后再将各部分整合起来。
整个工作流程可以分为三个核心阶段。首先是初始计划构建阶段,智能体会将复杂的搜索任务分解为一系列相互关联但可以并行处理的子任务。每个子任务都对应一个具体的信息搜寻或验证目标,比如检索事实、验证关系或搜集证据。这个阶段的关键是要早期识别出可以并行执行的路径,为后续的并发证据获取和更高的信息密度打下基础。
接下来是并行执行和工具协调阶段。在每个时间步骤中,系统会从待处理任务集合中选择可以执行的子任务,同时利用可用的工具或智能体行动来搜集信息并执行推理任务。通过并行执行多个待处理子任务,系统能够加速任务完成并减少顺序瓶颈。系统会将每次并行执行的观察结果聚合到一个统一的推理状态中,这个过程可以用数学公式表示为:下一时刻的状态等于当前状态与所有并行执行动作及其观察结果的函数。
在实践中,并行执行通过一套有限但可复用的外部工具来实现,主要包括网络搜索和页面抓取功能。这些工具会在不同的待处理子任务中重复调用,以促进并发的信息获取和验证过程。
最后是动态计划完善阶段。为了确保计划能够适应持续的执行过程,任务计划会定期更新。已完成的子任务会被移除,未解决的依赖关系会被重新检查,可能还会引入新的子任务。任务计划会根据当前执行状态进行完善,其中包括已完成的子任务信息。这种动态完善确保任务能够适应进展并保持效率。
这种并行工作流的优势在于它能够同时推进多个信息搜集线程,就像一个新闻编辑部同时派遣多个记者去采访不同的消息源,然后将所有信息汇总形成完整的报道。相比于传统的顺序方法,这种并行策略能够显著提高信息获取的效率,同时减少因等待单一任务完成而造成的时间浪费。
三、数据构建:统一的多类型搜索任务生成
为了训练能够处理多种类型任务的智能体,研究团队开发了一套创新的数据构建管道。这个管道就像一个能够制作各种口味菜肴的万能厨房,不仅能够处理简单的家常菜(确定性问答),也能制作复杂的宴会大餐(开放式研究任务)。
数据构建过程从原始语料收集开始。研究团队利用TaskCraft语料库中的轨迹数据,这些轨迹包含了丰富的真实世界URL集合,涵盖艺术、体育、历史、政府、经济、政治、音乐、地理、电影、计算机科学、物理和化学等多个领域。关键的是,每个轨迹中的URL并不是独立的,它们通过明确的信息搜寻路径相互连接,后续查询和资源都建立在从早期资源收集的证据基础上。这种结构自然地在文档间形成了多跳关系,使得收集的语料库非常适合基于图的任务构建。
接下来是图网络构建阶段。基于初始语料库,团队开发了一个高效的管道来生成复杂的图网络。这个过程涉及将策划的文本作物分割成多个块,从中让大语言模型提取实体及其各自的属性。通过集成嵌入加重排检索机制,系统能够回忆相关块,使大语言模型能够综合详细的节点描述并描绘复杂的节点间关系,最终形成高度复杂的图网络。
子图提取是整个过程的核心环节。给定构建的知识图,系统使用受控的随机游走策略提取任务特定的子图。对于每个任务,系统会采样一个目标实体作为真实答案,并执行广度优先搜索直到N跳来收集其周围邻域。生成的子图定义了推断答案所需的支撑证据结构,其中多跳节点充当具有不同间接程度的问题条件。通过调整跳数深度和分支因子,系统可以灵活控制任务难度,同时保持语义连贯性和事实正确性。
为了确保高质量的任务结构,团队采用了严格的设计原则。他们优先选择拓扑结构丰富的子图,特别是那些两个N+1跳节点相互关联同时共享一个共同N跳父节点的情况,这样的结构能够形成循环依赖,需要对多个关系进行交叉验证。同时,他们明确限制深度和分支因子,以保持任务难度的可扩展性,避免出现琐碎的快捷方式或过长的推理链。
在问题构建方面,团队采用了分层综合过程。给定一个具有固定目标答案的任务特定子图,系统从最外层的N跳边界开始,迭代地将i+1跳节点的信息聚合成关于i跳实体的子问题。每个聚合步骤都会产生一个有效的中间问题,逐步合并所有层次最终产生关于目标实体的最终问题,这个问题需要最大跳数深度和推理难度。
当多个i+1跳节点表现出语义关系时,系统会明确将这些相互依赖关系编码为可验证条件,要求智能体对并行证据路径进行交叉验证,而不是依赖线性推理。为了防止信息泄漏,系统在每次综合迭代后应用基于大语言模型的验证步骤;如果答案可以过早推断,问题会被重新构建或相关信息会被混淆。这个过程会重复直到达到期望的难度或达到最多五次迭代。
对于开放式研究任务,数据构建过程略有不同。研究问题完全在统一的数据构建管道内综合,不依赖外部策划的查询。给定一个具有固定目标实体及其多跳支撑结构的任务特定子图,系统会制定需要整合整个子图中证据的开放式研究问题。这些问题被设计为引发报告式答案,涉及解释、比较和跨多个来源的综合,而不是单一事实输出。
四、训练策略:监督微调与强化学习的结合
SMTL的训练过程就像培养一个全能的研究助手,需要先让它掌握基本的搜索技能,然后通过实践反馈来不断完善其表现。整个训练分为两个阶段:监督微调阶段和强化学习阶段。
监督微调阶段的目标是让智能体学会稳定高效的搜索行为。训练数据集包含两种任务类别:深度搜索和深度研究,它们在监督形式上有所不同,但共享相同的基于子图的构建基础。深度搜索任务从跳数深度为2到5的任务特定子图中实例化,对于每个子图,在迭代聚合过程中构建的所有分层问题变体都会被保留,产生多个共享同一目标实体作为真实答案的问题。为了防止频繁答案的过度表示,系统应用答案频率阈值并丢弃目标实体出现过于频繁的任务。
深度研究任务则更加复杂。对于每个子图,系统构建一个以目标实体为中心及其多跳支撑结构的开放式研究问题。问题被制定为鼓励对整个子图的广泛探索和综合,而不是单答案检索,确保充分的主题丰富性和变化性。
在轨迹构建和策划方面,训练轨迹使用前面描述的智能体工作流生成。对于深度搜索任务,监督通过蒸馏DeepSeek-V3.2生成的轨迹获得,而深度研究轨迹则从GPT-5蒸馏而来,反映其更强的长形式综合能力。
为了确保高质量的监督,团队应用了严格的策划标准。轨迹总长度被限制在64K标记以减少冗余交互和嘈杂监督。平均每步工具调用数必须不少于3次,鼓励积极的信息获取。对于有多个成功轨迹的任务,系统只保留那些正确且在交互长度上最短的轨迹,这样能够优化轨迹效率。
强化学习阶段采用了稍微修改的REINFORCE Leave-One-Out算法。与GRPO相比,RLOO提供了无偏的优势估计器。团队的修改包括几个关键方面:首先,遵循DAPO的实现,他们采用了标记级损失函数。其次,为了减轻推理引擎和训练框架在对数概率计算方面差异引起的训练-推理不匹配,他们对rollout校正应用序列级重要性采样。第三,为了确保轨迹质量,他们过滤掉某些负面轨迹,使其不参与优势估计或梯度更新。
这些负面轨迹包括由环境问题(如连接超时或服务器错误)引起的失败,以及过长或达到最大回合数的响应。这种过滤策略防止模型学习由环境不稳定引起的虚假行为,有效稳定训练过程。
在强化学习阶段,系统使用基于结果的奖励优化轨迹。大语言模型作为裁判评估最终答案是否正确,为正确答案分配奖励1,否则为0。值得注意的是,如果工具调用违反了要求的格式,生成会立即终止并分配奖励0,从而明确鼓励正确的工具使用。
五、实验结果:全面超越现有方法
SMTL在多个基准测试中展现出了令人印象深刻的性能表现,就像一个经过精心训练的运动员在多项比赛中都取得了优异成绩。这些结果不仅证明了并行搜索策略的有效性,也验证了该方法在不同任务类型间的优秀泛化能力。
在深度搜索任务方面,SMTL表现出了一致的帕累托优势。以BrowseComp基准为例,在中等预算设置下(SMTL-100),模型已经在30B规模的开源智能体模型中达到了最先进的性能,准确率为43.6%,略超过Tongyi-DeepResearch-30B的43.4%,明显优于MiroThinker-v1.0-30B的41.2%。在XBench-DeepSearch上达到了78.0%,在WebWalker-QA上达到了74.9%。
当预算增加到300步时,性能进一步提升,在BrowseComp上的准确率从43.6%提升到48.6%,增长了5.0个百分点,大幅拉大了与Tongyi和MiroThinker的差距。相比之下,在较短视野任务如GAIA(74.8%→75.7%)和WebWalker(74.9%→76.5%)上的提升相对温和,这表明额外的交互预算主要有利于更深层的多步证据聚合。
从效率角度来看,SMTL的优势更加明显。在BrowseComp上,SMTL-100以平均60.4个助手步数达到了44.6%的准确率,略优于需要75.2步的Tongyi-DeepResearch-30B(43.4%)。与MiroThinker-v1.0-30B的对比更加鲜明:MiroThinker需要206.0步才能达到41.2%的准确率,而SMTL-100用不到三分之一的交互成本就实现了显著更高的准确率。
这种效率提升与SMTL的并行执行机制密切相关。与每轮只调用单一工具的顺序系统不同,SMTL平均每步执行3.5次工具调用,实现了跨子任务的并发证据获取。通过在每个交互轮次中聚合更多信息,SMTL提高了每步的信息密度,减少了冗余查询重新表述,从而产生更短但更有效的轨迹。
在开放式深度研究评估方面,SMTL同样表现出色。在DeepResearch Bench RACE上,SMTL-100达到了45.9%的总体得分,在综合性(42.1%)、洞察力/深度(45.6%)、指令遵循(49.6%)和可读性(45.5%)方面都表现均衡。这一表现超过了包括WebSailor-32B(32.4%)、WebDancer-QwQ(35.9%)、WebShaper-32B(34.9%)和AFM-32B-RL(35.8%)在内的代表性开源智能体基线,也略优于Tongyi-DeepResearch-30B(45.7%)和Kimi-Researcher(44.6%),在30B规模系统中建立了强有力的竞争力。
研究团队还通过案例研究深入分析了SMTL的效率优势。在一个BrowseComp任务中,SMTL在8个助手轮次内就定位到了关键实体,而MiroThinker-v1.0需要16个轮次才能达到相同的证据水平。这种差异源于根本不同的搜索组织策略。SMTL将任务分解为多个假设子任务并并行探索,使智能体能够快速浮现高信号证据,并根据中间观察定期重新规划子任务。因此,SMTL能够快速收敛到正确的搜索方向,并将后续交互分配给证据验证。相比之下,MiroThinker-v1.0遵循严格的顺序交互模式,每轮只允许单一工具调用,信息收集因此以增量方式进行,需要反复查询重新表述并延迟关键证据的发现。
六、深入分析:为什么"搜索多,思考少"更有效
通过一系列消融实验,研究团队深入探索了SMTL成功的根本原因,揭示了在长视野智能体搜索中一些令人意外的规律。
首先是关于最大交互步数的影响分析。团队在BrowseComp上变化最大交互步数从50到300,报告了四个统计量:总体平均步数、总体中位数步数、成功案例的中位数步数以及失败案例的中位数步数。结果显示了几个清晰的模式:成功案例的中位数步数随着交互步数增长并没有表现出明显的增长趋势,大多数成功轨迹在达到交互限制之前就收敛了,这表明一旦识别出正确的推理路径,额外的预算对这些案例提供的益处有限。
相比之下,失败案例的中位数步数密切遵循y=x趋势,表明大多数失败轨迹恰好在允许的最大步数处终止。这意味着许多失败是由于耗尽交互预算而不是过早输出错误答案。因此,总体平均步数的增长主要由失败案例的上移驱动,因为更多轨迹延伸到新的预算上限后才终止。
这个观察表明模型在面临困难时积极尝试探索替代推理路径,而不是误解任务或通过过早答案生成表现出过度自信。在较小预算下,大量困难案例仅仅因为SMTL无法在有限的工具交互次数内识别出有效推理路径而失败。当交互预算扩大时,SMTL获得了探索不同证据链的额外机会。结合定期计划完善,这种扩展预算使模型能够纠正次优搜索方向并逐步重新定向到有希望的子任务。
接下来是关于检索top-k参数的影响分析。团队通过变化网络搜索工具的top-k参数来研究检索宽度对性能的影响。这个参数控制每个查询返回的URL数量。结果显示,增加top-k持续改善任务性能。当top-k从4增加到8时,SMTL-100和SMTL-300都表现出显著提升(例如,SMTL-300从43.8提升到47.0,而SMTL-100从36.6增加到41.8以上)。这个跳跃表明窄检索窗口显著限制了证据覆盖,限制了SMTL在固定交互预算内识别相关信息的能力。
当top-k进一步从8增加到20时,性能继续提升,尽管速度较慢并逐渐收敛。这表明收益递减:一旦包含了最具信息性的候选,额外结果贡献边际收益,但仍通过减少错过关键证据的风险来增强鲁棒性。
这些结果与团队的设计直觉一致,即提高搜索广度可以成为长视野智能体搜索的强大扩展维度。在固定的交互步数下,增加top-k有效地将更多候选证据打包到每个搜索动作中,提高每步的信息密度。SMTL从每次交互内更广泛的证据获取中获益,而不是扩展推理深度,这表明扩展检索广度是比仅仅增加推理长度更有效的长视野搜索扩展轴。
研究还发现了一个关键的设计洞察:传统智能体的效率瓶颈主要在于过度依赖顺序推理。在搜索任务中,大量计算被投入到长时间的模型侧推理,而不是有效的外部证据获取。SMTL的成功证明了通过重新组织搜索执行而不是扩展推理深度来实现效率提升的可能性。
通过对比分析,团队发现SMTL的效率提升不是源于更深的单步推理,而是来自并行子任务探索和分阶段重新规划。通过重新组织搜索执行而不是扩展推理深度,SMTL大幅减少了定位关键信息和完成任务所需的交互轮次数。这种方法验证了在长视野智能体搜索中,并行证据获取比顺序深度推理更加有效的假设。
七、技术细节:实现高效并行搜索的关键组件
SMTL框架的成功实现依赖于几个精心设计的技术组件,这些组件就像一部精密机器中的各个齿轮,必须完美协调才能发挥整体效果。
在工具设置方面,SMTL使用了一套精简而富有表达力的工具集。核心工具包括web_search和crawl_page两个功能。web_search通过Serper API提供网络搜索功能,该API与Google搜索引擎接口。给定模型生成的查询字符串,该工具检索排名搜索结果列表,默认设置返回前五个条目。每个结果包含页面标题、简短片段和对应URL。搜索结果作为识别潜在相关来源和指导后续爬取决策的高级信号。
crawl_page工具负责细粒度内容获取和结构化摘要。它接受目标URL和描述需要解决的信息需求的明确目标作为输入。URL使用Jina Reader API进行爬取,之后检索的页面内容由DeepSeek-V3.2模型进行摘要。关键的是,目标规范为摘要过程提供语义指导,引导模型提取和压缩与当前子任务直接相关的信息,而不是产生通用页面摘要。这种目标条件摘要实现了更有针对性的证据收集,减少了不相关的上下文传播。
在推理阶段的上下文管理方面,SMTL采用了创新的溢出触发压缩方案。长视野任务经常超过128K窗口下普通智能体的有效上下文容量,在SMTL中这个问题被放大,因为每个交互步骤产生更多工具观察,减少了达到上下文限制前可以容纳的步数。为了提高上下文效率,SMTL将定期计划完善与溢出触发压缩方案结合:智能体默认每N=5步完善任务计划,当累积历史达到128K上下文预算而没有确认答案时,它执行额外的强制计划完善使用当前历史,然后丢弃所有计划前上下文并从刷新的计划继续执行。
这种以计划为中心的重置保留了最新的执行状态和子任务结构,保持推理行为与训练时计划完善一致。因此,SMTL在固定上下文预算下支持更长的有效轨迹,而不牺牲结构化任务上下文。
在训练实现细节方面,研究团队使用Qwen3-30B-A3B-Instruct-2507作为骨干模型。在监督微调期间,模型训练3.5个周期,批大小为128,使用AdamW优化器和初始学习率为1.4×10^-5的余弦衰减学习率调度。最大序列长度设置为65,536个标记以支持长视野轨迹。
在强化学习阶段,学习率设置为1×10^-6,批大小为32。对每个问题生成8个在策略rollout,最大序列长度为128k标记,最多120个交互轮次,训练执行60步。推理期间使用vLLM,上下文窗口为128K标记。除非另有说明,所有实验都以最多100个交互步骤进行,计划完善间隔为N=5个交互步骤。
系统prompt的设计也是关键因素。SMTL采用两个系统prompt分别支持深度搜索和深度研究任务。虽然两个prompt在输出结构和交互协议上有所不同,但它们在共享的并行智能体搜索框架下操作。两个系统prompt都遵循统一的设计理念:任务在图结构证据上表示,分解为多个目标或子任务,通过并行执行和协调工具使用来解决。在两种设置中,智能体都执行显式规划、基于工具观察的迭代计划完善和结构化进度跟踪,实现在受限交互预算下的高效长视野搜索。
八、未来展望:智能搜索的新范式
SMTL框架的成功不仅仅是一个技术突破,更是为未来的智能搜索系统指明了新的发展方向。这项研究证明了在长视野智能体搜索中,优先考虑高效、以搜索为中心的扩展比单纯追求更深层的推理提供了更加实用和可泛化的基础。
当前的研究结果表明,传统的"深度思考"模式可能并不是解决复杂搜索问题的最优路径。SMTL提出的"搜索多,思考少"策略展现了一种全新的可能性:通过更好地组织信息获取过程,而不是增加推理复杂度,来提升智能体的整体性能。这种范式转变对于整个人工智能领域都具有重要意义。
在实际应用方面,SMTL的并行搜索框架可以很容易地扩展到其他需要长视野规划和多源信息整合的任务中。无论是科学文献综述、市场调研分析,还是技术方案评估,都可以从这种并行证据获取策略中受益。相比传统的顺序处理方式,这种方法能够显著缩短任务完成时间,同时提高结果质量。
从技术发展的角度看,SMTL框架为构建更加高效的AI系统提供了新的思路。未来的研究可以进一步优化并行任务分解策略,开发更加智能的动态计划调整机制,或者探索不同类型工具的组合使用方式。这些改进都有可能进一步提升系统的性能和适用范围。
值得注意的是,SMTL在不同评估维度上的一致优异表现证明了其良好的泛化能力。这种泛化能力对于实际部署具有重要价值,因为现实世界的问题往往不会严格按照某一种特定类型出现,而是需要智能体具备处理各种不同问题类型的能力。
研究团队的开源承诺也为整个研究社区提供了宝贵的资源。通过开放代码、模型和数据集,其他研究者可以在SMTL的基础上进行进一步的探索和改进,这将有助于推动整个领域的快速发展。
说到底,SMTL的成功揭示了一个重要的设计原理:在设计智能系统时,我们不应该盲目追求单一维度的复杂度提升,而应该从系统整体效率的角度来思考优化策略。有时候,改变工作方式比增加工作强度更加重要。就像SMTL用并行搜索替代深度推理一样,未来的AI系统设计也应该更多地考虑如何通过更好的组织和协调来提升整体性能。
这项研究为我们展示了一个充满希望的未来:AI系统不仅能够更快地完成复杂任务,还能够在不同类型的任务间展现出优秀的适应能力。随着这种新范式的进一步发展和完善,我们有理由期待更加智能、高效的AI助手能够在更多领域发挥重要作用,真正成为人类知识探索和决策制定过程中的得力伙伴。
Q&A
Q1:SMTL框架是什么,它与传统AI搜索方法有什么不同?
A:SMTL(Search More, Think Less)是由OPPO AI团队开发的智能搜索框架,核心理念是"搜索多,思考少"。与传统方法不同,SMTL用并行的证据获取替代顺序推理,就像同时派遣多个助手去不同地方搜集信息,而不是让一个人坐着慢慢思考。这种方法能将平均推理步数减少70.7%,同时提升准确率。
Q2:为什么SMTL能同时提高效率和准确率?
A:SMTL的优势在于重新组织了搜索执行方式。传统方法每次只能执行一个工具调用,而SMTL平均每步执行3.5次工具调用,实现并发信息获取。通过将复杂任务分解为可并行处理的子任务,并定期调整计划,SMTL能快速定位关键信息,避免了顺序推理中的时间浪费。
Q3:SMTL框架可以应用在哪些实际场景中?
A:SMTL适用于各种需要长视野规划和多源信息整合的任务,包括科学文献综述、市场调研分析、技术方案评估等。由于其优秀的泛化能力,既能处理有明确答案的问答任务,也能处理开放式的研究问题,在多个基准测试中都达到了领先水平。





京公网安备 11011402013531号