![]()
这项由香港中文大学、北京大学、同济大学、清华大学、香港科技大学及LIGHTSPEED STUDIOS联合开展的研究,以预印本形式发布于2026年6月5日,论文编号为arXiv:2606.07689,有兴趣深入了解的读者可以通过该编号查询完整论文。
当一名侦探接到一个案子,他并不会只盯着第一条线索就做出判断。他会同时考虑多种可能,收集来自不同渠道的证据,当某条线索证明某个嫌疑人无辜时,他会果断划掉这个名字,继续追查真正的真相。研究团队发现,现有的AI信息搜索系统恰恰缺少这种能力——而他们设计的新系统Struct-Searcher,正是要让AI学会像优秀侦探一样思考。
这个问题值得我们认真对待。如今互联网上的信息不仅庞大,而且是真正意义上的"混合媒体"——文字、图片、视频交织在一起。当你问AI某栋建筑的建造年份,而你提供的图片模糊到可以被识别为两种不同的地标时,一个只会"线性积累线索"的系统就会从一开始就走错方向,而且越走越偏。这正是现有"深度研究"AI代理的核心弱点。
研究团队将现有系统的这种模式命名为"证据积累模型"——它就像一条流水线,只管不断叠加信息,遇到矛盾时没有回头纠错的能力。Struct-Searcher的出现,正是要彻底改变这条流水线,让它变成一张会自我更新的侦探推理板。
一、为什么现有的AI"侦探"总是跑错方向
要理解这个研究解决的问题,可以回到一个具体的侦探现场。假设你拿着一张老照片问AI:"照片里这栋建筑是哪年建的?"照片里的建筑线条模糊,既像巴黎埃菲尔铁塔,又像东京铁塔。现有的AI系统通常会直接拍板认定一个身份——比如它认定这是埃菲尔铁塔——然后立刻去搜索"埃菲尔铁塔建造年份",得到"1887至1889年"这个答案。
问题是,如果那张照片其实拍的是东京铁塔呢?正确答案是1958年,整整差了七十年。更糟糕的是,这种错误并不只是一步走错,而是像多米诺骨牌一样,第一块倒下之后,后面所有的判断都跟着崩塌。系统不会回头检查最初的身份识别是否正确,因为它的工作模式就是"向前走,不回头"。
研究团队把这种模式的根本缺陷总结为"认知僵化"——系统把收集证据这件事当成了一条只能单向行驶的单行道,而不是一张可以随时根据新情况重新规划路线的动态地图。这在纯文字场景下影响还不算太大,但当图片、视频等多种媒体混入之后,不同媒体来源之间的信息可能相互矛盾,这条单行道就彻底失灵了。
真实互联网上的信息本来就是这样充满矛盾的。一篇文字报道可能声称某款产品耐用性极佳,而一段用户实测视频却清晰地展示了产品的物理缺陷。这种"跨模态冲突"——来自不同媒体类型的信息互相打架——才是多模态深度信息搜索的真正难题。
二、侦探的推理板:Struct-Searcher的核心思路
Struct-Searcher的设计灵感来自一套严谨的哲学理论——由阿尔乔龙、加德福斯和麦金逊三人在1985年共同提出的"AGM信念修正理论"。这套理论用来描述一个理性个体在获得新信息时,应该如何更新自己的信念系统。这套理论的核心精髓是:当新证据与原有信念发生冲突时,你需要有原则地收缩旧信念、吸纳新信念,而不是简单地堆砌信息或者固执地坚守错误判断。
研究团队把这套哲学理论转化为了一张具体的"推理板",他们称之为"多模态结构图"(MSG)。这张推理板上有四种类型的卡片。第一种是问题卡,记录着用户最初提出的问题和提供的图片。第二种是目标卡,把大问题拆解成若干个需要逐步完成的小任务。第三种是假设卡,记录着系统目前认为可能成立的各种猜想——比如"这栋建筑可能是埃菲尔铁塔"和"这栋建筑可能是东京铁塔"会同时出现在推理板上。第四种是证据卡,记录着通过各种工具实际收集到的信息片段。
这四种卡片之间通过五种关系线连接起来,分别代表"分解"、"生成"、"依赖"、"支持"和"反驳"。当一条新证据支持某个假设时,对应的支持关系线就会被画上;当证据与某个假设相矛盾时,反驳关系线就会把那张假设卡标记为"死路"。整个推理过程就是这张推理板不断被更新、不断被修剪、不断被完善的过程。
系统会不断向这张推理板发起四种操作。构建操作负责把问题拆解成目标并初始化推理板;填充操作负责通过工具调用收集证据并添加到推理板上;验证操作负责检查每条证据与各个假设之间的支持或反驳关系;修剪操作则负责把被证伪的假设及其相关分支从推理板上彻底清除。最终,当推理板上只剩下一个经过验证、没有任何冲突的假设时,系统就用这个假设和支持它的所有证据来生成最终答案。
三、推理板的工作细节:信念是怎么被更新的
理解Struct-Searcher的运作方式,可以把它想象成一个非常谨慎的侦探在办公室里整理案件文件的过程。
侦探在接案之初,会先在推理板上列出所有合理的嫌疑人——也就是系统生成初始假设。这些假设可以是并行的,甚至是相互竞争的。系统不会一开始就认定某一个正确,而是让所有可能性都暂时存在于推理板上,等待证据的检验。
当证据支持某个假设时,系统的"信念状态"会发生一次"扩展"——对那个假设的信心增加,对应假设卡的置信度计数器会增加一格。当证据反驳某个假设时,系统会发生一次"修正"——那个假设会被从当前信念集合中移除,其状态从"未验证"变为"已证伪",所有与该假设相关的后续搜索任务都会立即停止。这是一个关键设计:系统不会继续浪费资源去核查一个已经被证伪的方向。
当某个假设积累了足够多的支持证据,并且其置信度超过一个阈值时,它的状态就会从"验证中"升级为"已验证"。当推理板上只剩下唯一一个"已验证"的假设,而所有其他假设都已被证伪或废弃时,整个推理过程就到达了收敛点——侦探可以拍板结案了。
最终答案不是从所有收集过的信息中随机生成的,而是从那张经过层层验证的"最大无冲突子图"中提炼出来的——换句话说,只有真正被证实的假设和真正支持它的证据,才会被用来生成答案。那些被证伪的分支、那些矛盾的信息,在最终答案阶段完全不会干扰结果。
四、侦探手中的工具:如何收集多模态证据
一个优秀的侦探不只会翻阅案卷,他还会亲赴现场勘查、调取监控录像、访问目击证人。Struct-Searcher同样配备了一套多样化的信息收集工具。
网络搜索工具是系统最常用的手段,通过Serper API实现,每次调用会返回按相关性排序的前五条搜索结果,包括标题、日期、摘要和页面链接。图片搜索同样通过Serper API实现,系统可以用文字描述去主动搜寻与假设相关的图片,每次同样返回前五张相关图片的标题、来源链接和缩略图链接。由于很多图片的原始链接需要身份验证才能访问,系统使用可以直接访问的缩略图链接作为替代。
网页抓取工具使用Jina Reader API,能够把指定URL的网页内容转换成纯文本格式,每个页面会被截取前六万个字符。图片分析工具则采用与系统主干模型相同的视觉语言模型,负责把问题中提供的图片或通过图片搜索找到的图片转化为与任务相关的文字描述,这是连接视觉信息与文字推理的关键桥梁。此外还有文本分析工具,能够把各种非图片格式的文件——比如PDF文档、Office文档、PDB分子结构文件、JSON-LD数据文件以及压缩包——转换为可读的Markdown或纯文本格式。
从工具使用频率的统计数据来看,网络搜索是最主要的手段,在不同数据集上的平均使用占比达到了56%,图片搜索紧随其后,平均使用占比约为9.3%。这个数字说明系统确实在主动利用多模态信息来源,而不只是把图片作为一个可选的装饰品。
五、三个考场:系统接受了哪些考验
研究团队选择了三个专门针对多模态深度信息搜索能力设计的测试集来检验Struct-Searcher的表现。
第一个测试集叫MM-BrowseComp,包含224道手工设计的题目,每道题都要求系统综合处理视觉和文字信息,而且答题所需的关键证据往往藏在搜索结果网页中内嵌的图片或视频里,单靠文字推理是远远不够的。题目覆盖媒体、技术、社会、地理和学术五个类别,除了最终答案的准确率之外,还提供了每道题的分步核查清单,用于评估推理过程的质量。第二个测试集叫HLE-VL,是"人类最后一次考试"(HLE)中包含图片的视觉语言子集,共330道题,跨越生物医学、化学、计算机科学与人工智能、工程、人文社科、数学、物理和其他八个领域。这个测试集的难度极高,题目的答案必须可被验证,就连最先进的模型在上面的准确率也很低。第三个测试集叫BrowseComp-VL,共399道题,全部需要跨模态推理。测试集按难度分为两个等级:199道一级题的实体信息相对明确,可以直接用于搜索;200道二级题则对实体信息进行了模糊化处理,要求系统自己规划搜索策略、整合信息、精炼查询,难度大幅提升。
六、成绩单:Struct-Searcher的表现如何
把Struct-Searcher放进这三个考场之后,它的成绩单颇为亮眼。在以GPT-5作为核心推理引擎的配置下,Struct-Searcher在MM-BrowseComp上取得了32.7%的整体准确率、26.0%的严格准确率和44.6%的平均核查清单得分,比排名第二的对手整体提升了约3.7%。在HLE-VL上取得了17.3%的整体准确率,比第二名提升约1.5%。在BrowseComp-VL上取得了48.6%的整体准确率,比第二名提升约0.7%。
这些提升幅度听起来似乎不大,但考虑到这些测试集本身的极高难度,以及竞争对手已经是GPT-5、o3等工业界最强系统,这样的领先是实质性的。在一个大家都在争夺个位数准确率提升空间的赛场上,每一个百分点都来之不易。
研究中最能说明问题的一组数据,是与并行工作流系统Flash-Searcher的精细化对比。除了地理类题目之外,Struct-Searcher在其他所有类别和所有难度等级的题目上都达到或超过了Flash-Searcher的水平。研究团队把这一现象归因于结构化思考的核心优势:相比于并行地同时处理多条路径,结构化思考会在整个推理过程中不断进行回溯和自我反思,从而有效压制跨模态冲突导致的错误积累。
七、换个大脑照样好用:插件式通用能力的验证
一个优秀的推理框架不应该只能配合某一款特定的AI引擎工作,就像一套好的侦探办案流程不应该只能由某一个特定侦探执行。研究团队专门测试了Struct-Searcher在五种不同核心引擎上的表现,包括GPT-4.1、GPT-4o、Gemini-2.5-Flash、Gemini-2.5-Pro和GPT-5。
结果显示,无论搭载哪款引擎,套上Struct-Searcher的结构化工作框架之后,系统的准确率都有不同幅度的提升,在BrowseComp-VL数据集上五款引擎的平均提升幅度达到了17.2%。这意味着结构化思考框架本身贡献了真实的独立价值,而不只是某款强大引擎的附属品。研究团队把这种特性称为"即插即用、模型无关"。对于工程实践来说,这意味着随着基础模型不断更新迭代,这套推理框架可以直接套用在新引擎上,不需要为每款新模型重新设计整个架构。
在专门针对MM-BrowseComp的更细化灵敏度分析中,五款引擎配合Struct-Searcher后的平均准确率提升达到了7.1%,进一步印证了这种一致性。
八、一个具体案例:侦探如何一步步锁定真相
研究论文提供了一个完整的真实案例,能够帮助我们具体理解Struct-Searcher是如何工作的。
题目提供了一张图片——图片里是一只黑色的鸟,特征是光泽感强的全身黑色羽毛、粗大的浅色喙和一小块白色翼斑,栖息在草地边缘。问题是:这种鸟的自然栖息地有哪些?题目中还提示了这种鸟是由十八世纪末一位德国博物学家首次记录的,属于包含多种食种鸟类的科,栖息在密灌丛、湿地和严重退化的前森林区域。
系统首先把这道题分解成四个依次递进的目标:从图片中提取诊断特征、确定最可能的物种和分类权威、交叉验证该物种的栖息地信息,以及整合最终的栖息地类别。
第一步,系统调用图片分析工具检查这张图片,工具返回了一个初步识别结果——它认为这是"小纹胸雀"(Sporophila minuta)。系统并没有立刻接受这个答案,而是同时把这个结果作为一个假设进行标记,并注意到它与题目中"德国博物学家"这条文字线索可能存在冲突——因为小纹胸雀的分类权威是瑞典人林奈,而非德国人。于是系统同时生成了另一个假设:这只鸟可能是"横斑食种雀"(Sporophila americana),其分类权威是德国博物学家格梅林,时间正是1789年,完全符合题目描述。
第二步,系统并行地对两个假设展开验证,调用维基百科页面、网络搜索和BirdLife数据库。证据陆续返回:横斑食种雀的分类权威确实是格梅林1789年,属于唐纳雀科;而小纹胸雀的典型雄性羽色是栗红色而非光泽黑色,与图片明显不符,其分类权威也是林奈而非德国人。两条反驳线索同时指向小纹胸雀假设,系统将其标记为"已证伪",停止所有与该假设相关的搜索。
随后在后续步骤中,系统又发现了一个新的竞争假设——"大嘴食种雀"(Sporophila crassirostris),其维基百科页面包含了一句精确符合题目描述的栖息地表述:"其自然栖息地为亚热带或热带潮湿灌丛、沼泽和严重退化的前森林。"这句话与题目中提到的"密灌丛、湿地和严重退化的前森林"几乎一一对应。系统随即重新评估,将大嘴食种雀与横斑食种雀并列为两个活跃假设,继续用多个来源的证据进行交叉验证。
经过几轮并行搜索和证据整合,大嘴食种雀的假设被多个独立来源一致支持,而横斑食种雀在湿地这一关键栖息地类别上缺乏明确证据支持,最终被排除。系统给出的最终答案是:亚热带或热带潮湿灌丛、沼泽和严重退化的前森林。
这个案例完整展示了结构化思考的优势:初始的图片识别错误并没有导致灾难性的连锁失误,而是被系统的多假设并行验证机制及时捕获和纠正。
九、与其他类型侦探的对比:三种工作方式的胜负
研究团队还专门做了一个"三种侦探工作方式大比武"的实验,将Struct-Searcher代表的结构化工作流与另外两种典型工作方式进行了直接比较。
第一种是"线性侦探",对应经典的ReAct框架——侦探按顺序一步一步推进案件,完成一个动作之后再考虑下一个,这是当前最基础的AI代理工作模式。第二种是"并行侦探",对应Flash-Searcher框架——侦探把大案件拆解成多条独立的调查线并行推进,提高效率,但每条线各自为战,整合矛盾信息的能力有限。第三种是Struct-Searcher的"结构化侦探"——侦探维护一张动态更新的推理板,所有假设共享同一个信念状态,证据可以实时修正任何一个假设的状态。
以GPT-5作为共同的核心引擎,三种工作方式在MM-BrowseComp上的准确率分别约为9.8%、10.9%和32.7%,结构化工作流比线性工作流高出约21.8个百分点,比并行工作流高出约21.8个百分点。在HLE-VL上,三者分别约为16.1%、15.2%和17.3%,结构化工作流提升约1.2个百分点。在BrowseComp-VL上,三者分别约为44.7%、47.9%和48.6%,结构化工作流提升约0.7个百分点。
不同数据集上的提升幅度差异显著。MM-BrowseComp是提升最明显的场景,这可能与该数据集中图文信息冲突最为密集有关;而HLE-VL和BrowseComp-VL的提升则相对较小,但仍然保持了方向上的一致性。
说到底,Struct-Searcher这项研究解决的是一个非常根本性的问题:当一个AI系统需要同时处理来自多种媒体的信息,而这些信息又可能相互矛盾时,它应该怎么办?研究团队给出的答案不是"造一个更强大的单一模型",而是"设计一个更聪明的思考框架"。这个框架的灵感来自几十年前哲学家们对"理性个体如何更新信念"这个问题的深入思考,最终被翻译成了一张动态更新的推理板,让AI代理在面对多模态信息冲突时拥有了回头纠错的能力。
这种能力对现实世界的意义是具体的。当AI需要帮助你核查一则图文并茂的新闻报道的真实性时,当AI需要综合一张X光片和一份病历报告来辅助医疗判断时,当AI需要从充斥着真真假假信息的电商评价中提炼出有用结论时,一个懂得在矛盾中修正信念的系统,和一个只会堆砌信息的系统,可能给出截然不同的结果。
研究团队在展望未来时提到,他们计划在这套结构化思考框架的基础上,通过强化学习等训练方式开发出开源的基础模型——也就是说,这套侦探思维框架有望被"内化"进AI模型的参数之中,而不仅仅停留在框架层面。这是一个有意思的方向:如果未来的AI能够从出厂开始就具备这种信念修正的能力,而不是依赖外部框架来约束它,多模态信息搜索的可靠性还会进一步提升。有兴趣追踪这一方向进展的读者,可以通过arXiv:2606.07689查阅完整论文。
Q&A
Q1:Struct-Searcher和普通的AI搜索代理有什么本质区别?
A:普通AI搜索代理通常采用"线性积累"模式,一路向前收集信息,遇到矛盾也不会回头纠正。Struct-Searcher的核心区别在于引入了一张动态更新的"推理板",同时维护多个竞争假设,当新证据推翻某个假设时,系统会立即停止该方向的所有搜索,避免错误积累。这种机制让系统在处理图片、文字等不同媒体来源的矛盾信息时,具备了主动纠错的能力。
Q2:Struct-Searcher在哪些真实场景下能发挥最大作用?
A:Struct-Searcher在图片信息模糊或不同媒体来源存在明显冲突的场景下优势最为突出。例如识别一张不清晰的建筑或生物图片并查询相关信息、核查图文并茂的新闻报道真实性、综合多个渠道信息做出判断等。研究数据显示,在多模态信息冲突密集的MM-BrowseComp测试集上,Struct-Searcher相比传统工作流的准确率提升超过20个百分点。
Q3:Struct-Searcher能配合不同的AI大模型使用吗?
A:可以。研究团队在GPT-4.1、GPT-4o、Gemini-2.5-Flash、Gemini-2.5-Pro和GPT-5五种不同核心引擎上都测试了Struct-Searcher,所有引擎在套用这个结构化框架后准确率都有提升,在BrowseComp-VL上的平均提升幅度达到17.2%。这种"即插即用、模型无关"的特性意味着随着基础AI模型的更新,这套框架可以直接迁移使用。





京公网安备 11011402013531号