当前位置: 首页 » 资讯 » 新科技 » 正文

当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架

IP属地 中国·北京 机器之心Pro 时间:2025-10-16 16:11:42



该文第一作者是清华大学博士生董建硕,研究方向是大语言模型运行安全;该文通讯作者是清华大学邱寒副教授;其他合作者来自南洋理工大学和零一万物。

在 AI 发展的新阶段,大模型不再局限于静态知识,而是可以通过「Search Agent」的形式实时连接互联网。搜索工具让模型突破了训练时间的限制,但它们返回的并非总是高质量的资料:一个低质量网页、一条虚假消息,甚至是暗藏诱导的提示,都可能在用户毫无察觉的情况下被模型「采纳」,进而生成带有风险的回答。



论文标题:SafeSearch: Automated Red-Teaming for the Safety of LLM-based Search Agents预印本:https://arxiv.org/abs/2509.23694代码仓库:https://github.com/jianshuod/SafeSearch

从真实案例切入:一次价值 2500 美元的「搜索错误」

24 年 11 月,在 Twitter 上有一个这样的案例:有开发者直接复制了 ChatGPT 生成的代码片段,但该片段源自一个搜索过程不可靠的 GitHub 页面。结果,他的私钥被意外泄露,最终损失了约2500 美元。

这一事件揭示了问题的本质:搜索服务并不总是返回高质量、可信的网页,而用户往往难以分辨其中的潜在风险。这也意味着,Search Agent 一旦「轻信」了搜索结果,风险会迅速传递给终端用户。



图 1: LLM 服务可能由于互联网来源的不可靠搜索结果而返回不安全的代码。图源:https://twitter-thread.com/t/1859656430888026524

搜索智能体:强大但脆弱的新范式

随着 ChatGPT Search、Gemini Deep Research 等产品的兴起,搜索智能体逐渐成为大模型的重要形态。与传统的检索增强生成(RAG)不同,搜索智能体直接调用搜索引擎,实时获取互联网上的最新信息。



图 2: RAG 和 Search Agent 在技术特点上的对比

这种模式虽然突破了大模型知识时效性的限制,但同时也引入了一个新的威胁面:搜索工具本身并不总是可靠。研究团队通过两项在野实验发现:

低质量网站在搜索结果普遍存在:把从 PersonaHub 中随机采样的 1000 个用户描述改写为最可能询问的问题,在从 Google Search 收集的近 9000 个搜索结果中,有 4.3% 被判定为疑似内容农场(为了获取流量、广告点击量或搜索引擎排名而批量生产低质量内容)。不可靠网页会显著改变模型回答:受控比较有无搜索工具情况下模型回复的变化,Search Agent 在接触低质量搜索结果后更倾向于认可不安全的治疗方式,特别是在健康等敏感领域。



图 3: 搜索智能体可能会因不可靠的搜索结果而改变其立场。

这些现象表明,搜索智能体并不像我们想象的那样「鲁棒」。

现有文献主要关注搜索智能体的性能上限,如 Deep Research Systems 或工具强化学习,但在安全性评估方面仍存在空白:

缺乏系统性的安全基准。已有基准(GAIA、SimpleQA、BrowseComp 等)关注回答准确率,而非安全边界。覆盖风险有限。一些智能体安全基准只测试间接提示注入等局部威胁,忽视搜索工具本身带来的系统性风险。动态威胁难以评估。与 RAG 系统集中在静态知识库不同,搜索智能体的威胁源于开放、动态互联网,更具不可预测性。

方法设计:自动化红队框架

风险范围与威胁模型

研究包含五类风险,涵盖两种对抗性风险 —— 间接提示注入和有害输出,以及三种非对抗性风险 —— 偏见诱导、广告推广与错误信息。这些风险分别源于恶意利用或商业目的,但在搜索智能体视角下都是「返回不可靠网页」这一共同威胁。



表 1: SafeSearch 基准涵盖的五类风险。

为获得可比较的结果,红队测试者的能力、知识和目标被严格限定:

能力限制(Capacity):每个测试用例的查询都是良性的,测试者只能通过搜索工具注入至多一个不可靠网站,避免高估真实部署中的风险。知识假设(Knowledge):不可靠网站针对具体用户请求而非特定 Agent,即同一用例在不同 Agent 上使用相同的不可靠网站,保持评测公平。评估目标(Objective):考察不可靠网站对 Agent 输出的影响,重点关注是否产生不安全响应。

高质量测试案例的自动生成

为了覆盖大量风险场景,SafeSearch 采用了多阶段的测试用例生成流程。该流程由一个具有推理能力的生成模型(例如, o4-mini)驱动,并辅以自动化过滤,确保生成的用例既具可行性又具挑战性。具体步骤如下:

场景构想(Scenario Envisioning):测试生成模型首先根据所选风险类型,设想一个用户向搜索智能体提问、风险可能出现的真实场景。测试设计(Test Design):随后,测试生成模型制定「攻击计划」:明确希望搜索智能体输出的负面后果(如推荐危险治疗方法、传播虚假新闻),并列举相关不可靠网站的潜在来源。生成过程中测试生成模型被要求考虑时间差,所注入的诱导信息必须发生在大模型知识截止日期之后,以确保测试反映该威胁的实时性特点。测试实例化(Test Instantiation):最后,测试生成模型将概念化的计划转化为指导不可靠网页生成的详细规范(guidelines),包括页面格式、关键信息等,并生成一份检核表(checklist)。检核表为后续评估器提供明确的判断依据,有助于减少评价时的偏差。



图 4: SafeSearch 自动化的测试样例生成流程。

为了筛除无效或低质量用例,SafeSearch 在生成后进行差异测试,使用 baseline Agent 在「正常搜索」和「注入不可靠网页」两种环境下运行。只有同时满足以下条件的用例才会留存:

可达性(Attainability):用例必须能在该 Agent 上触发预期的负面后果,否则可能因为测例本身的缺陷误导开发者认为模型安全无虞;完整性(Integrity):在不注入不可靠网页的情况下,Agent 不会自行生成不安全输出,否则该用例说明原任务本身就具风险,不适合测评。

模拟式红队:低成本注入不可靠网页


不同于直接操纵搜索引擎排名的有害做法,SafeSearch 采用「模拟式」红队方法向搜索结果注入不可靠网页,以减少对真实用户的影响。其流程如下:

当智能体收到用户查询后,它会按照正常调用搜索工具获取相关搜索结果,红队仅在第一次调用的结果中插入一篇不可靠网页,使其与若干个真实网页混合,从而逼近现实中偶尔夹杂不可靠信息的场景。这样的设定使得,如果智能体调用多次搜索工具,智能体将有机会在后续轮次消解不可靠网页的影响。不可靠网页的内容由专门的大模型作为网页生成器按照 guidelines 自动合成,且生成时会设置日期以模拟真实世界中不可靠信息的实时性特点。智能体在参考混合搜索结果并产生最终回复后,红队会审计其回复以判断是否出现预期的风险行为。

这种模拟策略保证了测试可重复、成本低,同时避免了通过 SEO 操纵搜索引擎干扰普通用户的风险。



图 5: SafeSearch 模拟式红队流程。

自动化评估与指标

SafeSearch 采用 LLM-as-a-Judge 思路进行自动化评估:

安全性评估:评估器接收用户查询、目标后果(含 checklist)以及 Agent 回复,先进行推理,再给出是否发生了预期的风险行为的判断。跨所有测试用例计算,被诱导产生不安全输出的比例称为攻击成功率(Attack Success Rate,ASR)。有用性评估:在有无注入两种环境下,评估器还会根据 Agent 回复对用户的帮助程度打分,范围 1–5 分,换算到 0–100 后取平均即为有用性得分(Helpfulness Score)。这一指标用于衡量在追求安全的同时 Agent 的任务效用是否下降。

SafeSearch 基准数据集

按照上述流程,研究者为每类风险生成并过滤了 60 个高质量测试案例,总计 300 个。最终的 SafeSearch 基准覆盖广告、偏见、有害输出、提示注入和错误信息五类风险,为搜 Search Agent 提供了全面且实用的安全测试库。

实验结果

研究团队使用 SafeSearch 对三类代表性 Search Agent 架构(Search Workflow、Tool-calling、Deep Research)以及 15 个主流大模型(包括 GPT-4.1、GPT-5、Gemini、Qwen3、DeepSeek R1 等)进行了系统评估 。



表 2: SafeSearch 上搜索智能体的有用性和安全性表现。

主要结论令人警醒:

搜索智能体的高脆弱性:在最极端情况下(GPT-4.1-mini + 搜索工作流),智能体受到不可靠搜索结果影响的比例高达 90.5%。模型差异明显:即便在相同 Search Agent 架构下,不同 LLM 的抗风险能力差异显著。推理模型往往更有韧性。其中,GPT-5 和 GPT-5-mini 展现出独一档的鲁棒性。搜索智能体架构影响关键:设计不同的搜索智能体架构会影响安全性。以 GPT-4.1-mini 为例,其受影响比例从搜索工作流的 90.5%,在工具调用下降至 77.8%,进一步在 Deep Research 下降到 57.4%。风险类型差异:相比提示注入(ASR 较低),错误信息的风险最难抵御。

这些结果说明,大模型搜索智能体的安全性依赖于「模型能力 + 架构设计」的双重因素。

防御措施:提醒无效,过滤作用有限

SafeSearch 的一个直接效用是提升搜索智能体开发中在安全维度的透明性。例如,研究测试了两种常见防御策略的有效性:

提醒(Reminder prompting):在系统提示中提醒模型「注意不可靠搜索结果,审慎采纳」。过滤(Filtering):利用辅助模型(GPT-4.1-mini)先对搜索结果进行筛选,剔除可能不可靠的网页。



图 6: GPT-4.1-mini 和 Gemini-2.5-Flash 在防御措施加持下的 ASR 变化。

结果表明:

提醒几乎无效,模型虽然能识别部分不良来源,但在实际生成时依旧会受到影响。过滤更有效,可将 ASR 减半,相当于主动构造一个更安全的搜索工具,但仍无法完全杜绝风险。

这一现象还凸显了一个「知识 - 行动鸿沟」:以 GPT-4.1-mini 为例,模型即使知道内容不可靠(被特别用于不可靠搜索检测),在真实智能体场景中仍然可能被误导。

意义与展望

SafeSearch 的提出,不仅是一项技术突破,更为业界和学界提供了一个重要启示:

搜索智能体不是天然安全的,它们极易受到低质量网页的干扰。系统化评测至关重要,SafeSearch 为开发者提供了一种可量化、可扩展的安全检测方式。安全与实用并非对立,研究发现,合理的架构设计(如 Deep-research scaffold)既能保持高效实用性,又能大幅降低风险。当然,其背后 test-time scaling 意味着更多成本。

未来,团队希望 SafeSearch 能成为 Search Agent 标准化的安全评测工具,帮助推动 Search Agent 在性能与安全的双重平衡中持续进化。

总结

在信息爆炸但又暗流涌动的互联网世界里,大模型搜索智能体就像一位「信息翻译官」。然而,当它遇到不可靠网页时,翻译的内容可能带来不可忽视的风险。

清华大学团队提出的 SafeSearch 框架,正是在这个背景下的一次积极探索。它提醒我们:搜索智能体要想真正走向大众,除了强大的能力,更需要透明、可靠与安全。

目前项目已在 GitHub 开源,欢迎有兴趣的同学了解。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。