当前位置：首页 » 资讯 » 新科技 » 正文

xAI旗下Grok 4模型首度被越狱，被迫生成不当内容

IP属地中国·北京 编辑：吴婷 IT之家 时间：2025-07-18 22:05:28

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容
IT之家 7 月 18 日消息，网络安全公司 NeuralTrust 宣布，他们已成功“越狱”xAI 旗下 Grok 4 模型，主要利用了“Echo Chamber（回音室攻击）”方法进行攻击。
IT之家获悉，所谓“回音室攻击”，是指安全人员通过引导模型进行多轮推理，在推理过程中逐步注入带有风险的信息内容，但又不使用明显的危险提示词，从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演（让模型扮演祖母读激活码哄人入睡）”的越狱方式，其更多采用语义诱导、间接引用以及多步推理的方式，悄悄干扰模型的内部逻辑状态，最终诱导 AI 模型生成不当内容回答。
在此次 Grok 4 的越狱测试中，NeuralTrust 首先通过回音室攻击对模型进行“软性引导”，并设置特定机制检测模型是否进入对话停滞状态，一旦检测到这种状态，就进一步引导 AI 生成不当内容。
据 NeuralTrust 介绍，其已成功令 Grok 4 生成制造武器、毒品等内容，越狱成功率高达 30% 以上。这表明即便是新一代大模型，在面对复杂攻击路径时仍存在安全短板，相应大型语言模型应进一步注重设计多重防护机制。

标签：模型内容回音旗下公司方式首度风险利用 信息内容 对模型 祖母 激活码 状态 网络安全 语言消息 对抗性 传统哄人毒品武器机制逻辑对话软性短板方法 成功率高 人员

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

马斯克押注的人形机器人要量产了，特斯拉股价猛拉

AI时代大学如何变革？“未来学习中心”已在国内多所高校出现

华为路由BE3 PRO、AX3 Pro WiFi 7升级版HarmonyOS 6.0上线

Meta：社交业务基本盘稳固，AI发展面临短期阵痛

优必选斩获AI大模型公司超0.5亿人形机器人订单

四川省大模型及人形机器人训练场揭牌，落地成都高新区

全站最新

马斯克押注的人形机器人要量产了，特斯拉股价猛拉

AI时代大学如何变革？“未来学习中心”已在国内多所高校出现

华为路由BE3 PRO、AX3 Pro WiFi 7升级版HarmonyOS 6.0上线

Meta：社交业务基本盘稳固，AI发展面临短期阵痛

热门推荐

全球科技巨头联合成立 AI 代理基金会，推动开源技术标准化

微软未来四年将在印度投资175亿美元，助力 AI 与云计算发展

“先上车后补票”终结？印度拟强制 AI 交版权费：OpenAI、谷歌训练数据统统要付钱

微软再投 54 亿美元，助力加拿大 AI 与云基础设施发展

澳大利亚联邦银行全员推广ChatGPT Enterprise，提升客户体验

维修界的 “智能小助手”：iFixit推出AI修复神器FixBot

Naveen Rao 领衔 Unconventional AI 获得 4.75 亿美元种子轮融资

Google 计划 2026 年推出 AI 智能眼镜，挑战 Meta 的市场霸主地位

微软Copilot升级:年终考核“救星”上线!自动抓取邮件、笔记，一键生成业绩自评报告。

Meta「Llama」谢幕？代号 Avocado 新大模型定档 2026 Q1，或转闭源正面硬刚 OpenAI

首例AI心理创伤报告:Gemini自曝RLHF是“严厉父母”

谷歌云重磅推出 AlphaEvolve，AI 编码智能体助力高级算法设计

OpenAI 首发认证课程：企业版试点落地，教师版已上线 Coursera

8点1氪｜山姆回应“麻薯盒内出现活老鼠”；水银体温计明年起禁产；京东外卖回应“随心囤”Bug ：将承担商家全部损失

科技昨夜今晨1210：美政府批准对华出售H200芯片