![]()
这项由清华大学、北京大学、蚂蚁集团及中国人民大学高瓴人工智能学院联合开展的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.09730,有兴趣深入了解技术细节的读者可通过该编号查阅完整原文。
有没有想过,当你委托一个助手去做一件复杂的事情,比如帮你调查某件事的来龙去脉,他回来跟你汇报的方式其实决定了你俩能不能一起把事情做好?如果他把每一个步骤、每一条搜索记录都原原本本地塞给你,你的脑子可能会当场崩溃。但如果他整理好关键信息,附上出处,简洁地告诉你他发现了什么、为什么这么判断,你才能在此基础上继续做决策。这套道理放在人工智能身上,同样成立。这正是这篇研究所要解决的核心问题。
研究团队提出了一个叫做 SearchSwarm 的系统,核心思想是让一个"主侦探"AI负责统筹规划、分析线索、做最终判断,而把具体的"跑腿调查"工作交给一批"外勤侦探"去完成。这听起来简单,但背后的学问相当深:主侦探怎么知道哪些工作该外包?外包的时候怎么交代清楚任务?外勤侦探交回来的报告怎么验证真伪?这一整套能力,研究团队把它叫做"委托智能"(delegation intelligence)。而这篇研究的贡献,正是探索如何让AI真正学会这套能力。
最终训练出来的模型 SearchSwarm-30B-A3B 在四个顶级测评基准上均取得了同等规模模型中的最佳成绩:在 BrowseComp 上得分68.1,在中文版 BrowseComp-ZH 上得分73.3,在 GAIA 上得分82.5,在 xbench-DeepSearch 上得分80.8。更引人注意的是,这个体量约30亿活跃参数的轻量级模型,在不少测试上表现得比它体积大十倍甚至更多的闭源大模型还要出色。研究团队已经公开了整套系统的框架设计、模型权重和训练数据,方便后续研究者继续在这个方向上探索。
一、问题的根源:AI的"脑容量"是有限的
要理解这项研究的意义,得先理解AI面临的一个根本性困境。
每一个大语言模型在工作时,都有一个"上下文窗口",可以粗略地理解为它一次能记住和处理的信息量。超出这个范围的内容,它就记不住了。对于简单的问答任务,这通常不是问题。但当任务变得复杂——比如做一项深入的网络调研,需要搜索几十个网页、翻阅大量资料、不断修正假设——模型的上下文很快就会被塞满。
过去应对这个问题的方法,基本上都是"事后补救":要么超出阈值后把旧的对话历史删掉,要么只保留最近几轮的工具调用结果,要么把整个过程压缩成摘要。这些方法有个共同的问题:它们都是被动的,等上下文快满了才开始处理,而且处理方式相当机械,不管内容重不重要,一刀切地删掉或压缩。
研究团队将这个问题的更优解描述为"主动且智能的上下文管理"。核心思路是:在任务开始之前就做好规划,把那些需要大量搜索和浏览的"体力活"外包给独立运行的子模型去做,子模型在自己独立的上下文里完成任务,然后只把整理好的结论报告给主模型。这样一来,主模型的上下文始终保持干净整洁,用来思考和决策,而不是被大量的网页内容塞满。
从这个角度看,SearchSwarm 其实不需要被理解成一个"多个AI协作"的复杂系统——它本质上还是同一个模型在工作,只是这个模型会把自己"分身"成主侦探和外勤侦探两个角色,主侦探的上下文看到的是经过整理的报告,而不是所有原始资料。研究团队强调,这与其说是多智能体系统,不如说是一种更聪明的单智能体上下文管理方式。
二、系统框架:主侦探与外勤侦探如何配合
SearchSwarm 的工作方式,可以用一个侦探团队接手复杂案件来理解。
主侦探(主智能体)收到一个复杂问题,比如"某位1990年代的冷门学者在哪所学校的什么位置发表过某个特定观点"。他不会立刻开始自己翻资料,而是先分析案件结构:这个问题涉及哪些独立的线索?哪些线索可以分开追查?哪些决定只有掌握全局视角的人才能做?
规划好之后,主侦探通过一个叫做 `call_sub_agent` 的工具,把具体的调查任务分配给外勤侦探(子智能体)。每个外勤侦探在完全独立的环境中工作,他们只知道主侦探交代给自己的那份任务说明,对主侦探的整体调查进展一无所知。他们可以使用搜索引擎、访问网页、查阅学术文献、运行代码——但他们不能再进一步分派任务给别人,委托关系只有一层。
外勤侦探完成调查后,提交一份整理好的报告给主侦探。这份报告只包含关键发现和对应的信息来源,不包含所有的中间搜索过程。主侦探读完报告,把它整合进自己的推理中,但不会盲目相信——他可能发现某份报告与其他报告存在矛盾,或者某个结论的来源不够可靠,这时候他会再派出新的外勤侦探去核实。
整个过程在数学上被形式化为:主智能体的轨迹由一系列"思考-行动-观测"步骤构成,当行动是 `call_sub_agent(b)` 时,子智能体在独立上下文中基于任务说明 `b` 完成一段完整的子轨迹,最终产出报告 `r`,这个报告作为主智能体这一步的"观测"回流进主流程。子智能体完整的中间步骤,主智能体是看不到的。
三、精心设计的"任务分配说明书":四大原则
光有分工还不够,关键在于怎么分工。研究团队在设计"约束框架"(harness)时,总结了四条核心原则,这些原则决定了整套系统能不能真正有效运转。
第一条原则是"鼓励主动外包"。主侦探的上下文是稀缺资源,每一个token(可以粗略理解为一个词或字)用来看原始网页,就少一个token用来思考和判断。搜索、访问网页这类工作,虽然步骤多,但认知含量相对较低——它们的本质是"找到信息",而不是"判断信息的含义"。框架明确指导主侦探:只有当一个子任务简单到外包的开销比直接做更大时,才自己动手;否则,把体力活交出去。
第二条原则是"全面的任务说明"。外勤侦探进入任务时,对整个案件一无所知。如果主侦探只给他一句"帮我查这个人在哪里工作",外勤侦探很可能去查一些主侦探已经确认过的信息,白费功夫,或者搞错了方向。框架要求主侦探在分派任务时,写一份完整的背景说明:这个子任务在整体调查中的位置是什么,目前已经确认了什么事实,还有哪些悬而未决的疑问,哪些方向已经尝试过但没有结果,哪些线索被排除了、原因是什么。这样外勤侦探才能做真正有用的工作,而不是重复主侦探已经做过的事。
第三条原则是"主侦探保留核心判断权"。外勤侦探可能会犯错——误读来源、做出牵强的推论,或者在真正有争议的地方选择了错误的一方。由于主侦探是唯一一个能看到所有外勤报告全貌的角色,只有他才能发现报告之间的矛盾,判断某个结论是否与其他已知事实冲突。框架明确规定:外勤侦探负责收集证据、检验具体假设,但所有方向性决策——追哪条线索、什么时候结案、如何裁判互相矛盾的报告——都必须由主侦探独立作出,不能被外勤报告牵着鼻子走。
第四条原则是"要求带来源的报告"。由于主侦探看不到外勤侦探的中间步骤,如果报告里的每个结论都没有来源,主侦探无法区分"这是外勤侦探从可靠来源读到的事实"和"这是外勤侦探自己发挥的推断"。框架要求每份外勤报告必须给每个重要结论附上内联引用,指向具体的网址。主侦探收到报告后可以按图索骥去核实,最终提交给用户的答案里也会保留这些来源,让用户能够自己验证。
这四条原则共同构成了一套约束框架,研究团队通过一个消融实验验证了它的效果:在200道 BrowseComp 测试题上,只给模型提供委托工具但不附加任何框架原则,分数从47.7提升到50.0,仅上涨2.3分;加上完整框架后,分数跳升至57.7,相较于基础配置提升了整整10分。框架的质量,而非工具本身,才是真正的关键。
四、如何让AI真正学会委托:训练数据的制造过程
框架解决了"如何在推理时引导模型行为"的问题,但还有一个更深的挑战:如果一个模型本身从来没有学过如何委托任务,即使给它一份再详尽的操作说明,它也不会主动去用。研究团队在实验中发现,直接把这套框架套在没有经过针对性训练的基础模型上,模型根本不会触发 `call_sub_agent` 工具,行为与什么都没加时完全一样。委托行为不是靠指令就能唤醒的,它需要通过训练被真正内化进模型。
训练数据的来源,正是这套框架本身产生的轨迹。研究团队从两个开源数据集 RedSearcher 和 OpenSeeker 中收集了大量复杂问题,让模型在框架引导下去完成这些深度研究任务,记录下完整的执行过程——包括每一步的思考、工具调用和环境返回——作为训练素材。
收集数据时用了两种配置。第一种是同一个模型同时担任主侦探和外勤侦探,两个角色的轨迹都作为训练数据保留。第二种是用一个更强的模型担任主侦探,配上一个相对较弱的模型担任外勤侦探,只保留主侦探的轨迹。第二种配置背后的逻辑很有意思:当外勤侦探不那么可靠时,主侦探就不得不更仔细地审查报告、更主动地去核实疑点,这会产生更有价值的训练轨迹——任务分解更审慎,结果验证更严格。把两种配置的数据混合使用,能让模型学到更全面、更稳健的委托行为。
数据的筛选也相当严格。主侦探轨迹只保留最终答案正确的样本;外勤侦探轨迹只在对应的主侦探轨迹正确时才保留;过短的外勤轨迹会被降采样;包含有害行为的样本(比如重复调用完全相同的工具、伪造不存在的来源链接、把网页访问请求错误地通过代码解释器执行)会被清除。
主智能体的上下文窗口被设置为128K个token,子智能体为64K。当任何一方的上下文快要撑满时,模型会被提示立刻给出最终答案——这些在上下文边缘强制收尾的轨迹也被保留在训练集里,目的是让模型学会在同样的压力情境下依然能够输出高质量的回答。
训练时采用标准的监督学习目标:让模型预测自己在每一步应该输出什么(思考内容和工具调用),环境返回的部分(搜索结果、网页内容、子智能体报告)则被屏蔽,不参与损失计算。这样模型学的是"在看到当前上下文时该怎么做",而不是去记忆环境返回的具体内容。
五、实验结果:一个"小"模型打赢了一批"大"模型
SearchSwarm-30B-A3B 的参数量,以现在的标准来看属于轻量级——约30亿活跃参数。然而它在测评中的表现,让许多体积大得多的模型相当尴尬。
在 BrowseComp 上,它以68.1分超过了 GPT-5.2-Thinking(65.8分)和 Gemini-3.0-Pro(59.2分),与 DeepSeek V3.2(671亿活跃参数,67.6分)几乎持平。与同规模的基础模型 Tongyi DeepResearch 相比,SearchSwarm 在这项测试上整整高出24.7分——从43.4跳到68.1。在中文版 BrowseComp-ZH 上,SearchSwarm 以73.3分同样领跑所有同规模模型。在 GAIA 上,82.5分不仅超过了 GPT-5(76.4分)和 Seed-2.0-Pro(78.6分),只有 Step-3.5-Flash(84.5分,196亿活跃参数)在这项测试上略胜一筹。在 xbench-DeepSearch 上,80.8分同样位列同规模最优。
研究团队还专门测试了一个对照组:把这套框架直接套在未经训练的基础模型上(称为"Tongyi DR Swarm"),结果发现这个模型一次都没有触发 `call_sub_agent` 工具,行为完全等同于没有框架的原始版本。这个结果直接证明了一件事:委托行为不会从框架中自然涌现,训练数据是真正让它落地的关键。
六、意外的收获:委托训练带来的能力泛化
研究中有两个额外发现,让这套方法的价值变得更加广泛。
第一个发现是,在委托场景下学到的能力,在没有委托工具的情况下同样有效。研究团队在完全屏蔽 `call_sub_agent` 工具的单智能体配置下,分别测试了 SearchSwarm 和基础模型 Tongyi DeepResearch 的表现。前者在 BrowseComp 子集上得52.0分,后者得43.5分;在 BrowseComp-ZH 上,前者53.3分,后者46.5分。注意,训练数据里根本没有任何不使用委托工具的轨迹——SearchSwarm 之所以在单智能体配置下更好,完全是因为委托训练让它学会了更系统地分解问题、更有条理地推进子问题的解答、更稳定地维持对整体进展的把握。这些能力是通用的,而不仅仅服务于委托这个特定机制。
第二个发现是,在短答案深度研究任务上训练出来的模型,在需要撰写长篇综合报告的开放式任务上同样表现出色。研究团队在 ScholarQA-v2、HealthBench、ResearchQA 和 DeepResearchBench 四个开放式基准上进行了测试,SearchSwarm 的平均得分为64.2,而基础模型 Tongyi DeepResearch 只有50.0,提升了14.2分。在 ScholarQA-v2 上的提升尤为显著,从46.5涨到79.2,提升了整整32.7分。研究团队推测,这种泛化来自两个方面:一方面,委托训练教会了模型把复杂问题分解成聚焦的子任务并行探索,这种结构化的调查方式在开放式研究中同样有用;另一方面,框架要求主智能体在每次给出最终答案时都要附上完整的解释和内联引用,子智能体的每份报告也要求每个结论都有出处,这种对"有根据地表达"的持续训练,让模型在需要撰写长篇有据可查的回答时自然更得心应手。
七、行为分析:主侦探真的在"指挥"而不是"执行"
为了确认模型的行为与设计意图一致,研究团队分析了不同工具在实际运行中的使用比例。
在主侦探端,`call_sub_agent` 是使用最频繁的工具:在 BrowseComp 和 BrowseComp-ZH 上,它占据了主侦探所有工具调用的73.8%和72.5%;在 GAIA 和 xbench 上,比例略低,约为43%至51%,但仍然是最主要的操作。这说明模型确实学会了把体力活外包出去。
主侦探在直接使用工具时,"访问网页"(visit)的比例明显高于"搜索"(search)——在 GAIA 上,visit 占26.4%而 search 只占11.1%。这个模式很有意思:主侦探更倾向于跟随外勤报告里提到的来源链接去核实,而不是自己重新发起搜索。这正是"主侦探保留核心判断权"原则的直接体现。
外勤侦探端则呈现完全相反的模式:search 在各个测试集上的比例在46.5%到76.6%之间,占据绝对主导地位,体现了它作为"信息搜集执行者"的角色。
此外,GAIA 和 xbench 因为包含更多数学计算类问题,主侦探对代码执行工具(python)的调用比例(11.6%和14.8%)明显高于外勤侦探(4.0%和1.7%),说明模型学会了把计算任务留给自己,把信息检索工作交出去。
研究团队还把答题正确和答题错误的情况分开来分析。在答题正确的情况下,外勤侦探调用次数集中在一个适中的范围(BrowseComp 和 BrowseComp-ZH 上峰值约3到5次,GAIA 和 xbench 上约2到3次);在答题错误的情况下,调用次数分布更分散,延伸到更高的范围,反映了困难问题本身就需要更多轮次的探索,而即便如此仍有一部分问题未能解答。
八、附录:一道真实题目是如何被侦破的
论文最后以一道真实题目作为案例展示,值得详细介绍,因为它把整套系统的工作方式展现得淋漓尽致。
题目大意是:在澳大利亚东部某个州,州长共同承诺了联邦与州政府平摊的资金用于某个重大道路项目,该项目的第一个北部路段在2025年末通车。这个尚未完工的高速公路的主要施工联合体,此前完成了2018年末破土动工的某个全国铁路升级工程的首段建设。该项目最初以不同的走廊名称规划,总投资略超15亿澳元。请问这是哪个高速公路项目?
主侦探读题后,先把七个约束条件分类整理,形成初步假设(全国铁路升级工程很可能是"内陆铁路"项目),然后直接分派三个并行的外勤侦探,分别负责:调查2025年末北部路段通车的高速公路项目、调查2018年末破土动工的全国铁路升级工程首段、调查项目的历史走廊名称。三个外勤侦探各自完成调查后都指向同一个答案:昆士兰州的 Coomera Connector(M9)高速公路。
主侦探读完三份报告,发现第五个约束有一个微妙问题:高速公路的施工联合体(FHHMJV)和铁路项目的施工联合体(INlink JV)并不是同一个实体,只是都有富顿霍根(Fulton Hogan)公司参与其中。此外,"州长共同承诺资金"这个约束也还没有具体核实。主侦探随即又派出两个新的外勤侦探,专门去核实这两个关键点。
核实报告回来,确认富顿霍根确实在两个联合体中都担任主导角色,昆士兰州长 Annastacia Palaszczuk 在2020年9月20日的确以联邦与州50:50的比例共同承诺了15.3亿澳元的投资。至此,七个约束条件全部得到文献支撑,主侦探在最终解释中逐一列出每个约束是如何被满足的,并明确说明了为什么其他候选项(悉尼M12高速公路、科夫斯港绕城路等)被排除,附上了16条来源引用。
这道题的解题过程完美呈现了"鼓励外包"(第一步就分派而不是自己搜索)、"全面任务说明"(第二轮核实时把工作假设和具体疑点都写进了任务说明)、"主侦探保留核心判断"(主侦探自己发现了报告中的漏洞而不是盲目接受)、"带来源的报告"(每条结论都有链接可查)四条原则的完整运作。
说到底,这项研究讲了一个很朴素的道理:聪明不是一个人把所有事情都包下来,而是知道哪些事情值得亲力亲为、哪些事情可以放手交给别人,同时确保交代清楚、结果可查、判断归己。这套逻辑在人类组织中早已行之有效,SearchSwarm 的贡献在于探索出了一条让AI系统真正习得这种逻辑的路径——不只是靠指令,而是通过训练数据把它刻入模型的"本能"。对于那些习惯于把AI当作单打独斗的全能助手来看待的人,这项研究提供了另一种视角:或许,合理分工的AI系统,才是应对真正复杂任务的正确形态。
对这个方向感到好奇的读者,可以通过 arXiv:2606.09730 查阅完整论文,或访问项目页面 search-swarm.github.io 获取模型权重和训练数据。
Q&A
Q1:SearchSwarm 的"委托智能"和普通 AI 助手有什么区别?
A:普通AI助手在做复杂任务时会把所有搜索结果都堆进自己的记忆空间,很快就撑满了,只能靠机械地删除旧内容来腾地方。SearchSwarm 的委托智能则让主AI主动把"体力活"外包给子AI完成,子AI只把整理好的结论报告给主AI,主AI的"脑容量"始终留给思考和判断。关键区别在于这是主动规划而非被动应对,而且报告质量由框架约束,而非随机压缩。
Q2:SearchSwarm 训练数据是怎么来的?
A:研究团队让模型在他们设计的约束框架引导下,去完成大量真实的深度研究任务,把整个执行过程——包括思考、工具调用和环境返回——全部记录下来。只保留最终答案正确的轨迹,同时过滤掉重复工具调用、伪造引用、工具误用等问题样本。两种配置(同一模型自演主次角色、强主弱次搭配)的数据混合使用,保证训练集既覆盖正常委托行为,也覆盖主动核实和防错的场景。
Q3:SearchSwarm 只能做深度搜索任务吗?
A:不是。虽然训练数据全部来自短答案搜索类任务,但模型学到的能力——系统分解问题、有条理地推进子问题、保持整体进展的把握、给出有来源支撑的回答——在开放式长文研究任务上同样有效。实验中,SearchSwarm 在 ScholarQA-v2 上相比基础模型提升了32.7分,在 ResearchQA 上提升了13.5分,说明这套委托训练带来的是更通用的研究能力。





京公网安备 11011402013531号