IT之家 8 月 26 日消息,科技媒体 bleepingcomputer 昨日(8 月 25 日)发布博文,报道称 Trail of Bits 研究人员开发出一种新型 AI 攻击手法,将恶意提示词隐藏在高分辨率图片中,并在 AI 系统自动降采样处理后显现,再被大语言模型当作指令执行,可窃取用户数据。
该方法由 Trail of Bits 的 Kikimora Morozova 与 Suha Sabi Hussain 提出,灵感来源于 2020 年德国布伦瑞克工业大学的图像缩放攻击理论。攻击者先在高分辨率图片中嵌入肉眼不可见的指令,再利用 AI 系统降采样算法使其显现。
IT之家援引博文介绍,AI 平台为节省性能与成本,通常会自动降采样(downscaled)用户上传的图片,主流使用最近邻(nearest neighbor)、双线性(bilinear)、双三次插值(bicubic interpolation)等图像重采样算法。
攻击者可针对特定算法设计图片,让隐藏的色块在降采样后形成可识别文字。例如,Trail of Bits 的案例中,图片深色区域会变红,并在双三次降采样后显现黑色文字。
一旦文字显现,AI 模型会将其视为用户输入的一部分,会结合正常指令执行,从而引发数据泄露或其他风险操作。研究人员在 Gemini CLI 环境中,利用此漏洞在 Zapier MCP“trust=True”模式下,未经用户确认便提取了 Google 日历数据并发送至指定邮箱。
该方法已在多个平台测试有效,包括 Google Gemini CLI、Vertex AI Studio(Gemini 后端)、Gemini 网页与 API 接口、安卓手机上的 Google Assistant 及 Genspark。
研究团队还发布了开源工具 Anamorpher(测试版),可生成针对不同降采样方法的攻击图片,表明其潜在威胁范围远超已验证的工具。