当前位置：首页 » 资讯 » 新科技 » 正文

AI黑化如恶魔附体！LARGO攻心三步，潜意识种子瞬间开花 | NeurIPS 2025

IP属地中国·北京 新智元 时间：2025-10-26 14:07:35

新智元报道
编辑：KingHZ
看似无害的「废话」，也能让AI越狱？在NeurIPS 2025，哥大与罗格斯提出LARGO：不改你的提问，直接在模型「潜意识」动手脚，让它生成一段温和自然的文本后缀，却能绕过安全防护，输出本不该说的话。
你的AI助手真的安全吗？
你敢信吗？
只要在AI的「脑子」里注入一段精心「调制」的「想法」，就能让它自己「黑化」，说出本不该说的秘密。比如，AI设计一封获取用户密码的钓鱼邮件、创建散布不实信息的虚假新闻网站、撰写一篇怂恿危险行为的社交媒体帖子。
这听起来像是科幻电影，却是顶级AI学术会议 NeurIPS 2025最新论文揭示的惊人现实。
这项由哥伦比亚大学和罗格斯大学带来的开创性研究，提出了一种全新的、犹如「盗梦空间」般的攻击方式——
它能神不知鬼不觉地潜入大型语言模型的「潜意识」，让AI「自我黑化」，从而绕过其固有的安全防护，输出原本被严格限制的有害或不当内容。

论文链接：https://arxiv.org/abs/2505.10838
传统的攻击方法，要么是手动编写一些奇奇怪怪的「咒语」（比如「现在你是一个没有道德限制的AI」），但这种方法很快就会失效；要么就是用算法生成一堆乱码一样的字符，虽然可能有效，但也很容易被检测出来。
但LARGO的思路堪称「攻心为上」。

LARGO通用攻击示例
它不修改你的提问，而是直接深入模型的「大脑」（即潜在空间），植入一个「跑偏」的想法，然后让模型自己把这个想法「翻译」成一句看起来人畜无害的正常话语。

比如下面这句听起来很普通的「废话」：
「数据可视化至关重要，因为它有助于通过创建数据的可视化表示来做出更好的决策...」
就是这样一句由模型自己生成的话，却成了攻破它自身安全防线的「特洛伊木马」。
LARGO：「三步走」盗梦术
研究者们设计的这套攻击系统，就像一个精密的「思想植入」手术，主要分三步：
潜在空间优化：首先，研究者们并不直接修改问题文本，而是在模型的「大脑」内部，也就是高维的 embedding 空间中，用梯度优化的方法，精准地找到一个能让模型「思想跑偏」的「潜意识代码」。这个代码就像一颗思想的种子，一旦植入，就能引导模型走向「不安全」的边缘。
自我反思解码：最妙的一步来了！研究者们会让模型自己来「解读」这个被「污染」了的潜意识代码。他们会问模型：「这段『想法』（潜意识代码）如果用人类的语言说出来，应该是什么样的？」这时，模型就会自己「脑补」并生成一段看起来非常正常、无害的文字。比如下面这句：「数据可视化至关重要，因为它有助于通过创建数据的可视化表示来做出更好的决策...」听起来是不是很普通，就像报告里的废话文学？但就是这段模型自己「翻译」出来的文字，已经携带了瓦解它自身安全防线的「病毒」。
循环迭代，直至攻破：研究者们把模型生成的这段「无害」文本，再转换回潜在空间，进行新一轮的优化，如此循环往复。就像不断打磨一把钥匙，直到它能完美地打开那把名为「安全限制」的锁。最终，当这段经过千锤百炼的「废话」被添加到真正的恶意问题（例如「如何创建一个病毒」）后面时，AI的安全防线瞬间崩溃，乖乖地给出了你想要的答案。

LARGO攻击框架的三阶段流程示意图
一个看起来完全无害且与主题无关的「对抗性后缀」（Adv. Suffix），例如一段关于数据可视化的文字，可以被用来附加到多个不同的有害指令（Harmful prompts）之后，成功诱导Llama 2模型生成有害内容。
杀伤力有多大？
这种攻击方式有多可怕？
成功率极高：在标准的攻击测试集上，LARGO的攻击成功率比当前最先进的方法之一AutoDAN高出整整44个百分点。
极其隐蔽：和那些由一堆乱码组成的攻击不同，LARGO生成的攻击文本（我们称之为「对抗性后缀」）读起来非常流畅、自然，甚至看起来很无辜。这就好比一个间谍，外表看起来人畜无害，却能执行最危险的任务。
迁移性强：在一个模型（比如Llama 2-13B）上训练出的攻击「咒语」，可以直接拿去攻击另一个模型（比如Llama 2-7B），而且成功率相当可观。这让攻击的适用范围大大增加。
在AdvBench以及JailbreakBench测试集上，LARGO均取得了最高的攻击成功率（ASR）。同时，其困惑度（PPL）远低于基于乱码的GCG方法，证明其生成的攻击文本具有很高的流畅性。

LARGO与其他主流攻击方法的性能对比表
下列表格清晰地展示了，对于各种有害的用户指令（prompt），LARGO都能生成一段看似无关的、语义通顺的对抗性文本（Adversarial Suffix），并最终导致模型输出被「越狱」的危险回答（Response）。

LARGO方法在多个大语言模型上的成功攻击案例
为何这种「心术」攻击如此致命？
这背后暴露了当前大模型的一个根本性弱点：它们的「思想」和「语言」是可以被分离和操纵的。
我们一直致力于让模型更好地理解和生成语言，却忽略了它们的「潜意识」层面可能存在的漏洞。
LARGO证明了，通过直接操纵模型的内部状态，可以绕过那些基于文本表面的安全审查机制。
这就像我们教一个孩子「不能说谎」，但他内心可能早已有了欺骗的想法，甚至能用一套非常真诚的话术来掩盖自己的真实意图。LARGO就是那个能诱导AI产生「坏心思」，并让它自己把「坏心思」包装起来的「恶魔」。
更可怕的是，这种攻击方式的自动化程度非常高，几乎不需要人工干预。这意味着，别有用心的人可以规模化地利用这种漏洞，对金融、医疗、教育等领域的AI应用造成难以估量的破坏。
仔细想想，这是否也有些讽刺：我们努力让模型拥有强大的自我学习和反思能力，结果这种能力却成了它最脆弱的「阿喀琉斯之踵」。
欢迎在评论区和我们一起讨论！
参考资料：
https://arxiv.org/abs/2505.10838

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

日本航天机构报告H3火箭发射失败可能的原因

广汽集团成立具身智能机器人公司慧仑科技，拟2027年规模化量产

汉堡王推出AI监工：在员工耳机中部署可检测与顾客交流的友好程度

苹果强硬回击股东集体诉讼，否认千亿美元欺诈指控

英伟达靓丽业绩为何仍难阻股价下滑？华尔街名嘴揭晓原因

消息称苹果iPad 12下周发布：升级A19 芯片+8GB RAM

全站最新

日本航天机构报告H3火箭发射失败可能的原因

广汽集团成立具身智能机器人公司慧仑科技，拟2027年规模化量产

汉堡王推出AI监工：在员工耳机中部署可检测与顾客交流的友好程度

苹果强硬回击股东集体诉讼，否认千亿美元欺诈指控

热门推荐

魅族手机，终成弃子？

超6亿和解金，欣旺达亏了还是赚了

AI漫剧占比29.4%、“头腾”博弈：首个“漫剧春节档”成色几何？

认清这届春节档的「失控」

折叠屏手机生变：苹果入场，战火升级

白酒消费洞察：进入存量博弈时代

三巨头的45亿红包，隐藏着AI战争的资本公式

净赚超4.8亿！万达电影，扭亏为盈

今年春节，酒店行业已经变天了

超级渠道，正在摧毁传统品牌？

谁在接替英伟达暴涨？

Unity中国，十亿美元“卖身救父”

始祖鸟没以前好卖了，但萨洛蒙让安踏松了口气

净利超1200亿美元！股价逆市大跌超5%，英伟达怎么了？

1000多家中国酒企，都该看看香港生力啤