近日,Perplexity 推出了一种新型安全系统 BrowseSafe,旨在保护 AI 浏览器代理免受网络内容操控的威胁。该系统声称其检测 prompt 注入攻击的成功率达到了91%,超过了当前市场上其他解决方案的表现。例如,promptGuard-2仅能检测到35% 的攻击,而大型前沿模型如 GPT-5的检测率为85%。此外,BrowseSafe 的运行速度足够快,能够实现实时监测。
AI 浏览器代理的广泛使用也带来了新的安全隐患。今年早些时候,Perplexity 推出了 Comet,这是一款集成 AI 代理的网络浏览器。这些代理能够像用户一样浏览网站,进行诸如电子邮件、银行和企业应用等认证会话操作。这种高权限的访问让恶意攻击者有机会将危险指令隐藏在网页中,从而引导代理执行不当行为,比如将敏感信息发送到外部地址。
随着对安全问题的深入分析,Perplexity 发现现有的评估基准如 AgentDojo 并不足以应对这些复杂的网络攻击。这些基准通常依赖简单的提示,无法覆盖现实世界中复杂的网络内容,因此攻击者能够轻易隐藏他们的恶意代码。
为此,Perplexity 创建了 BrowseSafe Bench,以三个具体维度定义网络攻击的范围:攻击类型、注入策略和语言风格。这一基准特别注重 “难以检测的内容”,即那些看似无害但可能被误认为是攻击的复杂内容。通过使用一种专家混合架构,BrowseSafe 能够在不影响用户体验的前提下并行进行安全扫描。
然而,评估中也揭示了一些问题。例如,针对多语言攻击的检测率下降至76%。此外,攻击者藏匿在 HTML 评论中的内容比在显性区域(如页面底部)中隐藏的内容更容易被检测到。Perplexity 的三层防御策略通过快速分类器和基于推理的前沿大语言模型形成了完整的保护机制。
尽管 BrowseSafe 在大多数情况下表现出色,但仍有近10% 的攻击能够绕过该系统,显示出网络环境的复杂性和攻击手法的不断演变。因此,Perplexity 将其基准、模型和研究论文公开,旨在为 AI 代理在网络中的安全交互提供更好的保障。
划重点:





京公网安备 11011402013531号