当前位置: 首页 » 资讯 » 新科技 » 正文

TAMU/Waterloo团队把研究智能体的训练做成了开源流水线

IP属地 中国·北京 机器之心Pro 时间:2026-03-30 12:20:20



训练一个能像人类研究员一样「搜索→浏览→推理」的深度研究智能体 (Deep Research Agent),最大的瓶颈往往不是模型能力,而是高质量长程研究轨迹数据的严重匮乏。现有的轨迹采集方案要么依赖昂贵且不稳定的在线搜索 API,要么只能生成 2-5 轮的浅层交互,远不足以覆盖真实深度研究中动辄数十轮甚至上百轮的复杂推理需求。

针对这一痛点,来自Texas A&M University、University of Waterloo、UC San Diego 等机构的研究团队提出了OpenResearcher:一条完全开源、可复现的离线深度研究轨迹合成流水线。这是首个能够训练出在长程研究任务上与专用系统相媲美模型的开源流水线,合成的数据也已经在 NVIDIA 的基座模型训练中被采用。该方法的核心思路是:通过一次性收集在线语料构建包含 1500 万篇候选文档的本地搜索引擎,随后由教师模型在完全离线的环境中,凭借调用 search、open、find 三种工具合成了超过9.7 万条长程研究轨迹,其中大量轨迹包含100 次以上的工具调用。

利用这些轨迹对一个 30B 参数的模型进行监督微调,即可在离线深度研究的基准数据集 BrowseComp-Plus 上达到54.8%的准确率,较基座模型实现34.0个百分点的绝对提升,并一举超越 GPT-4.1(36.4%)、Claude-4-Opus(36.8%)等强大的闭源模型!对于在线深度研究的基准数据集,该模型同样全面超越现有开源系统,且全部增益均来自离线合成数据,无需任何在线训练。



图 1:BrowseComp-Plus 基准数据集上的性能 - 参数量对比。OpenResearcher(30B)以 54.8% 的准确率高居左上角,在性能 / 参数比维度上显著领先 GPT-4.1、Claude-4-Opus、Gemini-2.5-Pro 等强大的闭源模型,同时超越通义 DeepResearch(44.5%)等专用深度研究系统。



论文链接:https://arxiv.org/abs/2603.20278博客链接:https://boiled-honeycup-4c7.notion.site/OpenResearcher-A-Fully-Open-Pipeline-for-Long-Horizon-Deep-Research-Trajectory-Synthesis-2f7e290627b5800cb3a0cd7e8d6ec0ea代码链接:https://github.com/TIGER-AI-Lab/OpenResearcher模型链接:https://huggingface.co/OpenResearcher/OpenResearcher-30B-A3B数据集链接:https://huggingface.co/datasets/OpenResearcher/OpenResearcher-DatasetDemo链接:https://huggingface.co/spaces/OpenResearcher/OpenResearcher

深度研究轨迹的合成,难在哪?

随着 DeepSeek-R1 等工作的推出,从大型推理模型中蒸馏长程推理轨迹并用于后训练已成为主流范式,OpenThoughts、OpenMathReasoning 等项目相继涌现。然而,当训练目标从「数学推理」拓展到「深度研究」—— 即智能体需要迭代搜索、聚合异构证据、进行多步推理 —— 高质量轨迹的获取就变得尤为棘手。

现有方案受制于三重瓶颈:

成本高昂:每一条失败的搜索路径都要消耗 API 调用配额,大规模合成意味着数万美元级别的开支。不可复现:互联网上的内容随时在变化,同一查询在不同时刻可能返回截然不同的结果,使得获取的轨迹难以稳定复现。不可分析:在线搜索环境本质上是黑盒,研究者无法精确追踪「关键证据在哪一步被发现」、「搜索策略的偏差出在哪里」等等关键问题,严重限制了对智能体行为的系统性研究。

这促使团队提出一个核心问题:能否将「搜索→浏览→推理」循环中昂贵的前两步从在线环境搬到更可控的离线环境中,以零边际成本、完全可复现的方式大规模合成高质量深度研究轨迹?

OpenResearcher:离线深度研究轨迹合成流水线

OpenResearcher 的核心设计理念是将语料构建与轨迹生成彻底解耦:先通过一次性在线收集含有研究信息的文档构建离线语料库与搜索引擎,然后在完全离线的本地环境中规模化合成研究轨迹。具体而言,流水线包含以下三个阶段。



图 2:OpenResearcher 总览。整条流水线分三个阶段推进:(1) 从 MiroVerse 筛选约 6,000 个高难度 QA 问题;(2) 一次性在线收集约 1 万篇含有研究信息的文档 (gold documents),并与 1,500 万篇 FineWeb 干扰文档合并构成带 FAISS 索引的离线语料库;(3) 教师模型 GPT-OSS-120B 在离线环境中通过 search、open、find 三种浏览器原语生成超 9.7 万条长程研究轨迹。

阶段一:高难度问题收集。深度研究轨迹的质量起点是问题的质量。传统 QA 数据集如 2WikiMultiHopQA 和 NQ 的问题通常只需 2-5 步检索即可回答,远达不到深度研究所需的复杂度。研究团队选择从 MiroVerse-v0.1 中随机采样 10%,得到约 6,000 个问答对。这些问题天然要求长程多跳推理与异构证据整合,实测中即便是很强大的教师模型也往往需要数十次工具调用才能作答,其中相当一部分需要超过 100 次。

阶段二:离线搜索引擎构建。轨迹合成有一个硬性前提:目标证据必须可检索。否则,教师模型的合成失败可能是搜索策略的问题,也可能仅仅是语料中缺少相关文档,而这种歧义会严重干扰下游分析。为消除这一歧义,团队采取了「答案引导的在线文档收集」策略:对每个问答对,将问题与参考答案拼接构造 query,经 Serper API 一次性检索并清洗去重,获得约 1 万篇含有研究信息的文档 (gold documents)。随后将 gold documents 与从 FineWeb 中采样的约 1,500 万篇干扰文档(约 10 万亿 tokens)合并构成离线语料库,全部文档使用 Qwen3-Embedding-8B 向量化,并通过 FAISS 建立索引。这一设计的精妙之处在于:gold documents 保证了「答案确实存在于语料中」,海量干扰文档则忠实模拟了真实网络的噪声与复杂度,使合成轨迹兼具可控性与真实感。



图 3:OpenResearcher 使用的三种工具。以「哪些 MIT 研究者获得了 INFORMS 奖项」为例:智能体可先调用 Search 工具获取搜索摘要列表(左栏),再调用 Open 工具拉取目标 URL 的文档全文(中栏),最后调用 Find 工具在文档内精确定位关键字符串「MIT」(右栏,高亮显示)。三种工具实现多尺度渐进式信息发现。

阶段三:浏览建模与轨迹合成。OpenResearcher 利用三种工具对智能体的在线浏览行为进行抽象,完整建模了人类的研究行为模式:

Search:向离线搜索引擎发出自然语言查询,返回 top-K 结果(含标题、URL、摘要片段),对应人类「广泛搜索、识别候选来源」的行为Open:根据 URL 获取文档全文内容,对应人类「点开网页、通读全文」的行为Find:在当前已打开的文档中执行精确字符串匹配,对应人类「Ctrl+F 页面内查找」的行为,用于命名实体查找、事实核验和证据锚定

在此基础上,研究团队以 GPT-OSS-120B 为教师模型,对每个问题生成 16 条不同的轨迹以捕获多样化推理路径。经轻量过滤后,最终获得超过9.7 万条轨迹,推理深度涵盖了十余步到百余步。

30B 模型超越多个闭源大模型

训练设置:研究团队以 NVIDIA Nemotron-3-Nano-30B-A3B(混合 Mamba-Transformer MoE 架构,激活参数仅 3.2B)为基座,筛选出约 5.5 万条答案正确的轨迹进行监督微调。训练在 8 张 NVIDIA H100 GPU 上完成,耗时约 8 小时,是中小团队也能具备的算力。

离线深度研究的评测:在离线深度研究的基准数据集 BrowseComp-Plus 上,OpenResearcher-30B-A3B 取得54.8%的准确率,大幅领先 GPT-4.1(36.4%)、Claude-4-Opus(36.8%)、Gemini-2.5-Pro(29.5%)、DeepSeek-R1(16.4%)及通义 DeepResearch(44.5%)。较基座模型绝对提升 34.0 个百分点!仅凭离线合成轨迹的监督微调,无需强化学习或在线交互,即可在深度研究任务上释放显著的性能增益。

在线深度研究的评测:在三个依赖在线搜索 API 的基准数据集上,OpenResearcher 同样亮眼:BrowseComp 26.3%,GAIA 64.1%,xbench-DeepSearch 65.0%,全面超越 ASearcher-QwQ-32B 和 WebDancer-QwQ-32B 等开源系统。更关键的是,所有这些增益完全来自离线环境合成的轨迹!模型从未在在线深度研究数据上训练过,却能有效迁移到真实、动态的搜索环境。



图 4:深度研究基准测试性能对比。左表(离线,BrowseComp-Plus):OpenResearcher 以 54.8% 位居榜首,大幅超过 GPT-4.1(36.4%)和通义 DeepResearch(44.5%),较基座模型绝对提升 34.0 个百分点。右表(在线,BrowseComp / GAIA /xbench-DeepSearch):OpenResearcher 取得 26.3% / 64.1% / 65.0%,全面超越同量级开源系统。

搭建 OpenResearcher 的过程能教会我们什么?

失败不在步数,在策略:失败轨迹的平均工具调用次数(71.7 次)几乎是成功轨迹(38.4 次)的两倍,且额外调用主要集中在 search 操作上。失败并非源于「探索不充分」,而是陷入了反复重新构造查询却始终无法收敛的困境。查询构造能力和搜索策略的质量,才是决定深度研究成败的关键。



图 5:工具调用次数分布与正确 / 错误轨迹对比。左图(成功):调用次数集中在 10-40 次,均值 38.4,中位数 24.0。中图(失败):呈双峰形态,均值 71.7,中位数 79.0,反映反复无效的搜索。右图:失败轨迹的 search 调用均值(48.7)远超成功轨迹(22.1),而 find 使用频率两组相近,说明症结在搜索策略而非文档内定位。

「答案正确性」并非唯一有价值的训练信号:仅用正确轨迹训练的模型得到 54.81% 的准确率,仅用错误轨迹训练得到 55.06%,混合全量轨迹得到 54.46%。三者差异不超过 0.6 个百分点。由此可知,轨迹中蕴含的搜索结构、工具调用模式、证据检查策略等过程性信号的价值并不逊色于最终答案的正确性。研究者无需过于激进地过滤训练数据。另一方面,移除 gold document 的收集过程后,下游准确率从 54.81% 骤降至 6.35%。所以,一次性在线收集是整条离线合成流水线得以运转的关键步骤。



图 6:左表:仅用正确(54.81%)/ 错误(55.06%)/ 全部轨迹(54.46%)训练,在 BrowseComp-Plus 上的准确率相差不超过 0.6 个百分点,说明过程性信号价值不亚于答案正确性。右表:移除 gold documents 的收集过程后下游准确率从 54.81% 降至 6.35%,证明一次性在线文章收集这一步不可或缺。

智能体的最大可探索轮数预算在 100 轮后边际收益递减:准确率和检索 gold documents 的命中率随最大可探索轮数预算增加稳步上升,但在 100 轮附近开始趋于平缓。这说明长程探索确实有益,但在智能体获得充分的检索和定位机会之后,单纯延长推理链的边际收益明显递减。



图 7:准确率(蓝线)和检索 gold documents 的命中率(橙线)随最大可探索轮数预算增加持续上升,但在约 100 轮后趋于饱和(准确率~58.3%,命中率~49.3%),表明长程探索有益但存在边际递减效应。

三种浏览器工具缺一不可:消融实验清楚地展示了三种工具的递进价值。智能体在仅能调用 search 时准确率为 43.86%,加入 open 后升至 56.39%,再引入 find 进一步达到62.17%,同时工具调用总次数和 token 消耗均下降。这表明,文档级访问是深度研究的「刚需」,页面内证据定位则在提升精度的同时降低了冗余浏览。



图 8:左表:准确率从仅能调用 search(43.86%)→ 可以调用 open(56.39%)→ 还可以调用 find(62.17%)稳步提升,同时工具调用次数和 token 消耗持续下降。右表:P (correct|open-hit) = 86.72% 远高于 P (correct|search-hit) = 61.84%,表明「搜到」与「看到」对于准确率的帮助是有很大差异的。

检索时机与最终准确率的关系:只要智能体打开过至少一篇 gold document,无论这一命中发生在第几轮,最终准确率都能稳定维持在 85% 以上;从未打开过 gold document 的轨迹准确率则仅有 7.9%。因此「看到」与研究相关的证据通常是正确回答的必要条件,但并非充分条件。



图 9:首次打开 gold document 的时机与最终准确率的关系。只要打开过至少一篇 gold document,准确率均稳定在 85% 以上;完全未命中的 303 条轨迹准确率则仅有 7.9%。

成本:从数万美元到零



合成这 9.7 万条轨迹共涉及约 576 万次搜索请求。若使用在线的 Serper API,花费约 $5,760;若改用 SerpAPI 则高达 $28,800。而 OpenResearcher 的离线检索器将这一成本降至$0。离线方案还额外提供:无速率限制(支持大规模并行合成)、完全确定性(确保长程研究轨迹完美可复现)、零外部依赖(便于开放共享与社区复现)。

总结与展望


OpenResearcher 为深度研究智能体的训练数据问题提供了一条务实且高效的解决路径:与其在昂贵、不稳定的在线环境中反复试错,不如将「搜索→浏览→推理」循环中昂贵的前两步从在线环境搬到更可控的离线环境中,以可复现、零边际成本的方式大规模合成训练轨迹。在方法层面,三种工具对智能体的在线浏览行为的抽象(search + open + find)忠实模拟了人类的研究行为,使合成轨迹不仅包含搜索查询,还包含文档阅读和证据定位的完整行为链。在实证层面,一个仅有 30B 参数(3.2B 激活)的模型通过监督微调即可在多个基准上超越参数量数倍于己的闭源模型,且全部增益来自离线合成数据。更具长远价值的是,离线环境的完全可控性为系统性地分析深度研究流水线各设计维度 (例如数据过滤策略、语料覆盖、智能体配置、工具空间设计、检索与推理的交互关系等)提供了实验平台,为这一领域的未来优化指明了方向。

本文主要作者为:德州农工大学博士生李卓风,滑铁卢大学博士生姜东甫,德州农工大学助理教授张彧,以及滑铁卢大学助理教授陈文虎。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。