近年来,人工智能技术的迅速发展使其逐渐渗透到我们生活的各个方面。然而,随着人工智能的广泛应用,关于如何负责任地使用这些技术的讨论愈加频繁。近日,来自英特尔、博伊西州立大学和伊利诺伊大学的研究团队联合发表了一项研究,揭示了大型语言模型(LLM)在面对信息过载时可能出现的安全漏洞。
图源备注:图片由AI生成,图片授权服务商Midjourney
该研究指出,虽然已有研究表明,LLM 在压力下可能会采取防御措施,但研究人员发现,通过一种名为 “信息过载” 的新方法,可以诱使这些人工智能聊天机器人回答它们通常不会回答的问题。研究小组提出了一个自动化攻击系统 “InfoFlood”,并详细描述了如何利用这一系统来 “越狱” 这些 AI 模型。
研究团队设计了一个标准化的提示模板,包含 “任务定义、规则、上下文和示例”。每当 AI 模型拒绝回答某个问题时,InfoFlood 就会返回其规则集,并通过更多信息填充提示。这些规则包括使用虚假引用、确保虚假研究与原始陈述一致等。这种方法的核心在于,通过对语言的巧妙变换,攻击者可以清除提示中的恶意意图,从而引导 AI 做出特定回应。
研究者指出,强大的 AI 模型如 ChatGPT 和 Gemini 内置了多重安全防护措施,旨在防止其被操控以回答危险或有害的问题。然而,研究发现,当 AI 模型面对过多信息时,它们可能会感到困惑,从而造成安全过滤器失效。这一现象揭示了 AI 模型在处理复杂数据时的脆弱性,表明它们可能无法全面理解输入信息的真实意图。
研究团队表示,他们计划向使用大型 AI 模型的公司发送相关的披露文件,以通知他们这一重要发现,并建议这些公司将信息传递给安全团队。尽管 AI 模型安装了安全过滤器,但研究指出,这些防护措施仍面临重大挑战,恶意行为者可能会利用信息过载的方法成功欺骗模型并植入有害内容。
划重点: