当前位置: 首页 » 资讯 » 新科技 » 正文

NYU与耶鲁发现:传统BM25算法在特定任务中超越先进AI检索系统

IP属地 中国·北京 科技行者 时间:2026-02-07 22:30:51


这项由纽约大学上海分校、耶鲁大学和纽约大学数据科学中心联合开展的研究发表于2026年,论文编号为arXiv:2602.05975v1,揭示了一个令人意外的发现:在科学文献检索这个复杂任务中,看似老旧的传统检索方法竟然大幅超越了最新的AI检索技术。

近年来,深度研究智能体正在成为处理复杂查询的强大工具。这些系统就像是配备了超级大脑的智能助手,能够自主规划多步骤的研究流程,从在线资源中检索信息,并将证据综合成全面且有据可查的答案。与此同时,基于大语言模型的检索器也展现出了强大的能力,特别是在遵循指令和支持推理密集型检索方面。

然而,这引出了一个关键问题:这些看起来更加智能的AI检索器能否真正有效地为深度研究智能体的工作流程做出贡献?为了回答这个问题,研究团队决定从科学文献搜索这个角度入手进行系统性研究。

选择科学文献搜索作为研究对象有其深刻的考量。首先,这是一个既常见又具有重大影响的任务。搜索相关文献是研究过程中不可或缺的一部分,无论是验证某个想法是否已经被探索过,还是收集相关工作资料,一个强大的智能系统都可能显著加速科学发现的进程。其次,与依赖整个网络的现有深度研究任务不同,科学文献搜索采用了受控的特定领域语料库,这为精确评估不同检索器提供了可控的实验环境。第三,现有的科学文献搜索数据集往往存在不足,难以有效评估深度研究智能体,因为这些数据集中使用的论文已经过时,往往包含在大语言模型的预训练知识中。

基于这些考虑,研究团队构建了SAGE(科学智能体检索评估)基准测试,这是一个包含1200个查询的综合性评估框架,涵盖了计算机科学、自然科学、医疗健康和人文社科四个关键科学领域。每个领域都配备了一个包含5万篇最新论文的检索语料库。这个数据集的统计数据显示了其全面性:短答题部分每个领域包含150个查询,平均查询长度在180到201个词元之间,每个查询对应一个准确答案;开放式问题部分同样每个领域包含150个查询,平均查询长度约100词元,但每个问题对应多个相关论文作为标准答案。

一、深度研究智能体的表现分析

研究团队首先评估了六个深度研究智能体的表现,包括GPT-5、GPT-5-mini、GPT-5-nano等专有系统,以及开源的DR Tulu系统。这些系统在处理复杂查询时的表现呈现出有趣的差异化特征。

在短答题方面,GPT-5系列展现出了最强的整体性能,其中GPT-5在各个领域都取得了最佳的精确匹配率,达到71.69%。这就像是在一场知识竞赛中,GPT-5总是能最准确地找到那个唯一正确的答案。相比之下,开放式问题的结果则更加多样化:GPT-5-nano在医疗健康领域表现最佳,而Gemini-2.5-flash在计算机科学和人文社科领域具有竞争力。值得注意的是,开源的DR Tulu在短答题上的表现超越了闭源的Gemini-2.5系列智能体,这表明开源深度研究智能体在精确的、检索密集型设置中可以匹敌甚至超越专有系统。

一个意外的发现是,搜索数量并不是准确性的主要驱动因素。在短答题中,Gemini-2.5-flash的网络搜索调用次数几乎是GPT-5的两倍,而DR Tulu返回的参考文献数量异常庞大(平均37.32篇),但两者的表现都大幅落后于GPT-5。这种现象就像是在图书馆里找书,有些人虽然翻遍了更多书架,查阅了更多资料,但最终找到正确答案的效率却不如那些目标明确、搜索策略精准的人。这个模式表明,蛮力搜索或大量积累参考文献对于精确检索来说是不够的,更强的模型似乎能够从更准确的查询分解和更有针对性的证据选择中受益,用更少但更精准的搜索实现更高的准确性。

不同智能体在不同类型查询上的搜索策略也展现出了适应性差异。当从短答题转向开放式问题时,DR Tulu和Gemini系列会减少搜索次数,这与更宽松的约束条件和可能的早期停止策略相一致。相比之下,GPT-5在开放式问题上增加了搜索活动,并获得了最佳的整体结果,虽然与其他智能体相比,参考文献数量的增加幅度适中且可以接受。

二、检索器性能的深度对比

为了更深入地理解LLM检索器在深度研究工作流中的整合效果,研究团队使用DR Tulu作为骨干智能体,将其网络搜索工具替换为三种不同的检索器:传统的BM25稀疏检索器、基于LLM的gte-Qwen2-7B-instruct检索器,以及专门为推理密集任务训练的ReasonIR检索器。

结果令人震惊:BM25在短答题上显著超越LLM检索器约30%的性能差距。这就像是在一场寻宝游戏中,使用传统地图和指南针的寻宝者竟然比使用最新GPS导航系统的人更快找到宝藏。具体而言,BM25在k=10设置下达到了81.2%的平均准确率,而gte-Qwen在相同设置下仅为63.0%,ReasonIR更是只有49.3%。

这种性能差异的背后隐藏着一个重要发现:现有深度研究智能体生成的子查询主要是面向关键词的。分析显示,专有模型倾向于将查询分解为更具短语化、语义结构化的搜索查询,而DR Tulu的子查询更常类似于结构较少的关键词串联。这种差异与观察到的效率差距相符,更结构化的分解对应于更少但产出更高的搜索和改进的检索精度。

在开放式问题上,BM25和gte-Qwen2-7B-instruct的性能相当,而ReasonIR在两种查询类型上都排名最后。值得注意的是,gte-Qwen2-7B-instruct甚至可以略微超越BM25,这表明当评估容忍更广泛的证据覆盖时,基于LLM的检索可能具有竞争力。

研究团队还发现了一个关键的查询-检索器不匹配问题。虽然基于LLM的检索器是在自然语言查询上训练的,但智能体经常生成类似关键词的子查询,这与检索器的训练分布匹配度较差,可能无法充分利用语义能力。这就像是给一个习惯了优雅对话的管家下达简短粗暴的命令,结果自然不如预期。

三、语料库级别的测试时扩展方法

面对推理密集型检索的挑战,研究团队提出了一种新颖的语料库级别测试时扩展框架。这个方法的核心思想是,与其增加查询的复杂性,不如将推理衍生的信息整合到文档中,使现成的检索器更容易检索到它们。

这种方法就像是为图书馆的每本书都制作了一个详细的标签和关键词索引。具体来说,研究团队使用大语言模型为每篇论文提取了八个主题相关的关键词,这些关键词总结了论文的核心贡献。同时,他们还获取了关键的书目元数据,包括发表场所、年份、作者和引用数量。这些信息被格式化为强调关键词,并添加到每个文档的Markdown开头,这样书目信号和高层语义线索都能被有效地表面化,以实现基于关键词的有效检索。

实验结果表明,这种语料库级别的测试时扩展确实带来了实质性的改进。在短答题上,BM25获得了8.18%的绝对增益,从75.80%提升到83.98%。其他检索器也有所改进,但幅度较小:gte-Qwen提升了0.90%,ReasonIR提升了1.70%。这种差异的原因在于BM25对关键词信号更加敏感,而基于LLM的检索器在文档接近输入长度限制时会遇到困难,因此添加的信息对它们来说只是略微容易处理。

在开放式问题上,所有三个检索器都只显示出边际改进。这个结果与之前的观察一致,即DR Tulu生成的查询缺乏多样性,这限制了检索的广度,并阻止了语料库级别扩展完全转化为下游性能增益。

四、深入的消融研究

为了更好地理解不同类型查询信息的重要性,研究团队进行了详细的消融研究。他们发现,短答题涵盖了查询信息的三个方面:论文元数据、多模态细节和论文间关系。手动检查显示,利用其中任意两个组件足以定位93.67%的目标论文。

搜索方法强烈影响哪些信息最重要。不同的深度研究智能体强调查询的不同组件,这种强调会随着搜索方法的改变而变化。在网络搜索下,DR Tulu对论文细节最敏感,而在基于语料库的搜索下,论文间关系成为主导因素。此外,共享相同搜索方法的智能体表现出相似的敏感性模式。例如,DR Tulu和Gemini-2.5-Pro都依赖Google搜索,都受论文细节的影响最大,这表明检索后端在很大程度上决定了哪部分查询信息驱动性能。

这种发现就像是发现不同的导航系统在相同的道路网络上会有不同的路径偏好。使用相同搜索引擎的系统会表现出相似的信息偏好模式,这揭示了底层技术架构对系统行为的深层影响。

五、实验设计的技术细节

在实验设计方面,研究团队采用了严谨的方法确保结果的可靠性。对于网络搜索实验,他们评估了两类深度研究智能体:专有的和开源的。专有智能体包括GPT-5、GPT-5-mini、GPT-5-nano、Gemini-2.5-Pro和Gemini-2.5-Flash,都通过官方API使用。对于GPT系列,他们将"推理努力"设置为"中等",并启用网络搜索功能。对于Gemini系列,他们将"思考预算"设置为"-1"以启用动态思考,并给予网络搜索权限。

对于语料库搜索实验,研究团队修改了DR Tulu的MCP服务,使其只能使用提供的检索器作为搜索工具。在检索索引构建过程中,他们首先根据SAGE数据集中的URL下载所有PDF,然后使用PyMuPDF转换为Markdown格式处理文本,使用PDFPlumber处理表格。接下来,他们使用相应的检索器对每个Markdown文件的前32000个词元进行嵌入,以确保保留每个PDF内容的绝大部分,同时匹配gte-Qwen2-7B-instruct的最大输入长度。

在检索设置中,DR Tulu智能体部署在两个H100 GPU上,一个运行vLLM进行答案生成,另一个运行由选定检索器驱动的MCP。他们将最大搜索迭代设置为10,对于每个检索器,他们评估了每次搜索返回结果数量的两种设置:前5和前10。每个检索步骤返回论文标题列表及其摘要。

六、基准测试数据集的构建

SAGE基准测试的构建过程体现了研究团队的细致考量。对于短答题,他们从三个来源构建问题-答案对:提取的论文元数据(如作者数量、标题长度)、使用PyMuPDF提取的图表,以及通过引用重叠建立的论文间关系。为了建立论文间关系,他们计算论文之间的引用重叠,如果两篇论文在参考文献列表中至少共享四个共同引用,就认为它们相关。

数据生成过程就像是精心编织一张复杂的关系网。研究团队首先从每个领域的主要会议期刊中采样种子论文和2024年后发表的相关论文,然后提取相应的元数据、图表、表格和论文间关系。接着,他们使用GPT-5-mini生成需要跨多个来源推理的问题,每个问题的答案就是种子论文本身。

对于开放式问题,构建过程更加复杂。这些问题由两个组件组成:研究主题的背景上下文和一对论文之间的共享引用。研究团队利用前面提到的引用重叠信息选择论文对,对于每个选定的对,他们采用GPT-5-mini分析两篇论文之间的相互关系以及它们共享引用的原因。基于这种分析,GPT-5-mini生成相应的问题。由于每个开放式问题有多个标准答案论文,他们使用分层结构创建标准答案:最相关的论文是选定的种子论文对,其次是两篇核心论文都引用的论文。

七、评估指标的科学设计

评估指标的设计体现了对不同问题类型特性的深刻理解。对于短答题,研究团队使用精确匹配作为指标,评估标准答案是否包含在输出文本或引用中。这种评估方式就像是判断学生在考试中是否给出了完全正确的答案,不允许有任何偏差。

对于开放式问题,评估更加复杂。鉴于这类问题的标准答案论文列表的特性,研究团队首先分配离散的相关性分数r∈{2,1,0}:最相关(r=2)给两篇种子论文;相关(r=1)给核心论文引用的交集;不相关(r=0)给所有其他论文。然后他们报告加权召回率来捕获输出文本和引用列表中的所有论文。这种评估方式就像是评判一篇综述文章的质量,不仅要看它是否找到了最核心的参考文献,还要看它是否覆盖了足够广泛的相关资料。

语料库构建也遵循了严格的科学原则。对于每个领域,研究团队构建了一个50k论文的语料库,仅使用开放获取的PDF以确保可访问性。语料库从以下内容开始:计算出的引用重叠信息中的标准答案目标论文及其最高重叠伙伴、它们引用的交集,以及它们引用的并集。然后通过从相应领域的主要会议期刊中采样2020年或之后发表的论文来扩展语料库,直到达到所需的语料库大小。由于人文社科领域论文的有限可用性,该语料库产生了大约4万篇论文,因为研究团队有意排除了非常旧的文献。

研究结果揭示了深度研究智能体检索行为的重要洞察。所有评估的系统都在推理密集型检索方面存在困难,这种检索需要综合元数据和论文间关系。使用DR Tulu作为骨干智能体的进一步比较显示,BM25显著超越基于LLM的检索器约30%,因为现有智能体生成面向关键词的子查询。这种行为与表面形式匹配很好地对齐,而由于查询公式不匹配,基于LLM的检索器的语义能力受到影响。

为了解决推理密集型检索挑战,研究团队提出的语料库级别测试时扩展框架取得了实质性改进,在短答题上获得8%的增益,在开放式问题上获得2%的增益。这种方法通过利用大语言模型对每篇论文进行推理并用额外信号丰富语料库,使现成检索器的检索变得更容易。

说到底,这项研究为我们理解AI检索系统的真实表现提供了宝贵的洞察。它告诉我们,最新最炫的AI技术并不总是意味着最好的性能,有时候简单可靠的传统方法可能更加有效。同时,通过巧妙的数据增强策略,我们可以让传统方法发挥出更大的潜力。这就像是发现,在某些情况下,经验丰富的老师傅使用传统工具能够比年轻人使用最新设备做得更好,而如果我们为老师傅提供一些精心准备的辅助材料,他们的表现还能进一步提升。

这项研究强调了有效的检索器与智能体协作需要进一步适应的重要性。它也提醒我们,在追求技术创新的同时,不应该忽视经过时间考验的经典方法的价值。对于有兴趣深入了解这项研究的读者,可以通过论文编号arXiv:2602.05975v1查询完整的技术细节和实验数据。

Q&A

Q1:SAGE基准测试包含哪些内容?

A:SAGE是一个科学文献检索基准,包含1200个查询,覆盖计算机科学、自然科学、医疗健康和人文社科四个领域。每个领域有300个问题,分为短答题(需要找到唯一正确答案)和开放式问题(有多个相关论文作为答案)两种类型,配备20万篇最新论文作为检索语料库。

Q2:为什么BM25检索器比先进的AI检索器表现更好?

A:主要原因是深度研究智能体生成的查询主要是关键词导向的,而不是自然语言表达。BM25擅长处理关键词匹配,而AI检索器在自然语言查询上训练,面对关键词式查询时无法充分发挥语义理解优势。这种查询-检索器不匹配导致AI检索器性能下降约30%。

Q3:语料库级别测试时扩展方法是如何工作的?

A:这种方法使用大语言模型为每篇论文提取8个核心关键词和重要元数据(如发表场所、作者、引用数等),然后将这些信息作为强调关键词添加到论文开头。这样做使传统检索器更容易找到相关论文,BM25在短答题上获得了8%的性能提升。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。