当前位置：首页 » 资讯 » 新科技 » 正文

大模型智能体不止能写代码，还能被训练成白帽黑客

IP属地中国·北京 编辑：冯璃月机器之心Pro 时间：2025-09-11 13:09:17

当人们还在惊叹大模型能写代码、能自动化办公时，它们正在悄然踏入一个更敏感、更危险的领域 ——网络安全。
想象一下，如果 AI 不只是写代码的助手，而是能够像「白帽黑客」一样，在不破坏系统的前提下模拟攻击、发现漏洞、提出修复建议，会带来怎样的改变？
这个问题，最近由 Amazon AWS AI 的 Q Developer 团队给出了答案。他们在 arXiv 上同时发布了两篇论文，提出了训练网络安全大模型的全新方法：Cyber-Zero和CTF-Dojo。这两项研究不仅是学术探索，更像是一次「实战演练」的预告，预示着大模型智能体正在从通用任务走向网络安全的前线。

论文 1: Cyber-Zero: Training Cybersecurity Agents without Runtime
链接: https://arxiv.org/abs/2508.00910

论文 2: Training Language Model Agents to Find Vulnerabilities with CTF-Dojo
链接：https://arxiv.org/abs/2508.18370
网络安全
大模型落地的一座特殊堡垒
在通用任务上，大模型的训练已经形成了相对成熟的范式：海量数据、长时间预训练、再经过对齐与微调。但网络安全场景不同，其核心难点在于训练环境与数据的高度敏感性。
事实上，闭源大模型已经在安全攻防方向展现出一定潜力。Google 的Project Zero团队就曾使用 Gemini 系列模型探索漏洞发现，一些初创公司甚至尝试构建基于闭源模型的「AI 红队」，用来模拟攻击并进行防御验证。实际案例表明，这些强大的闭源模型确实具备了发现漏洞、自动化执行攻击步骤的潜力。
然而问题在于，这些模型的训练范式和数据集完全不透明。我们无法得知它们是如何习得攻防知识的，也无法验证模型的安全性与可靠性。更重要的是，闭源模型无法被研究者和企业安全团队自主改造或控制，这本身在安全领域是一种潜在风险。
另一方面，如果要让模型从零开始学会攻防，传统思路需要搭建真实运行环境，以生成交互轨迹。但这种方式成本高、风险大，甚至可能在实验中触发不可控的攻击。而高质量的安全攻防数据本就极度稀缺。漏洞利用和修复往往涉及复杂的环境状态、系统调用和长时间推理，很难像自然语言文本那样容易转化为标准语料。
这意味着，如果继续沿用传统方式，「AI 白帽黑客」可能永远只能停留在实验阶段。Amazon 团队正是瞄准了这个瓶颈，提出了两个互补的解决方案：Cyber-Zero 致力于「如何生成安全而高效的训练数据」，而 CTF-Dojo 则专注于「如何在实战中训练模型发现漏洞」。
Cyber-Zero
无需真实环境的模拟训练场
Cyber-Zero 的核心思想是「runtime-free training」，即完全不依赖真实运行环境，而是通过已有知识和语言建模生成训练所需的高质量行为轨迹 (trajectories)。
团队注意到，公开的 CTF（Capture The Flag）竞赛 writeups 是极其宝贵的资源。它们记录了参赛者如何分析题目、尝试攻击、定位漏洞以及最终解题的过程。Cyber-Zero 正是基于这些 writeups，构建出高质量的训练轨迹。
具体来说，系统首先从 writeups 中提取关键步骤和思路，然后通过设定不同的人格（persona），让大模型在纯文本环境中模拟攻防双方的对话与操作。例如，攻击者 persona 会生成可能的利用路径，防御者 persona 会进行应对。这一过程中生成的长序列交互被视作行为轨迹，用于训练网络安全智能体。

实验表明，这种免运行时的轨迹生成不仅规模可观，而且多样性丰富，覆盖了常见的攻防模式。与真实环境生成的轨迹相比，Cyber-Zero 的数据在漏洞定位、攻击路径推理等任务上的训练效果毫不逊色，甚至在部分指标上表现更优。这意味着，AI 白帽黑客可以在一个完全安全的虚拟训练营中反复优化，而不必担心成本和风险。

团队还得出几项关键发现：
通用的软件工程智能体（SWE Agents）无法直接迁移至网络安全任务。写代码 ≠ 找漏洞，两类技能之间存在明显鸿沟。模型规模与性能密切相关：参数更大的模型更擅长维持长程推理链，跨多步组合命令，并在多轮交互中保持状态连贯，这对复杂攻防至关重要。经过 Cyber-Zero 轨迹微调的 32B 智能体，性能已接近闭源模型 Claude-3.7-Sonnet，而推理成本仅为其 1%。
这些结果一方面凸显了 Cyber-Zero 的实用价值：它不仅能安全、低成本地生成训练数据，还能让模型通过微调在安全任务上具备实用能力；另一方面也指出了研究方向：如果不针对安全任务进行专门优化，即便是大规模的通用 SWE 智能体也难以承担白帽黑客的角色。
CTF-Dojo
让 AI 在实战中学会发现漏洞
如果说Cyber-Zero提供的是一个「虚构的训练场」，它通过解析 CTF writeups 与 persona 模拟，在纯文本空间中生成攻防轨迹，让模型在完全无风险的虚拟环境中学习；那么CTF-Dojo就是一个「真实的战场」。它直接构建可运行的 CTF 攻防环境，让智能体能够真正执行命令、与系统交互、发现并利用漏洞。前者强调规模化、安全、高效的数据生成，后者强调贴近实战的攻防演练，两者一虚一实，形成互补。
CTF-Dojo 的核心难点在于：如何在大规模下为LLM智能体提供稳定的运行环境。传统 SWE（软件工程）代理通常需要专家手动配置环境才能运行，而每个任务的准备工作往往耗时数周，极大限制了研究规模。为此，Amazon 团队提出了CTF-Forge，一种能够在几分钟内自动搭建运行时的容器化工具，可以快速部署数百个挑战实例，显著降低了人力成本。

研究团队选择了全球最具代表性的pwn.college CTF Archive作为种子数据。该数据集收录了数百个来自顶级赛事的高质量题目，涵盖六大类别，从 Web 漏洞、二进制利用到密码学挑战一应俱全。通过精心筛选，并排除测试数据中已包含的题目，最终形成了658 个独立任务实例，为智能体训练提供了坚实的基础。

然而，最初实验表明，开源模型在这些复杂任务上的成功率极低。大部分 OSS 模型只能完成少数挑战，生成的轨迹也质量参差不齐。为了提高可用样本的产出率，团队引入了三项推理阶段增强技术：
将公开的赛题笔记（writeups）作为提示，帮助模型更快锁定解题方向；运行时增强：通过在执行过程中动态修改环境配置或任务约束，把过于复杂的挑战「降维」，从而提升模型完成任务的成功率；教师模型多样化：不仅依赖单一模型生成解题轨迹，而是同时调用多种不同类型的大模型（包括开源和闭源），让它们各自贡献成功案例，以此获得更丰富、更具多样性的训练样本。
最终，团队主要依赖Qwen3-Code-480B和DeepSeek-V3-0324两个强大的开源模型，收集到来自274 个挑战的 1000+ 成功轨迹。在去除冗余、限制每个任务实例的最大样本数后，最终得到了486 条高质量、经过运行验证的轨迹。
基于这些数据，研究团队对 Qwen3 系列模型（8B、14B 和 32B 参数规模）进行了训练，并在多个网络安全基准任务上评估了效果。结果显示，经过 CTF-Dojo 训练的模型，在EnIGMA+ 基准（源自前作 Cyber-Zero）上取得了最高 11.6% 的绝对提升，不仅超过了开源基线模型，还表现出与闭源模型接近的水平。更重要的是，随着训练样本数量的增加，性能呈现出清晰的可扩展性，证明了在真实环境轨迹驱动下，大模型在网络安全任务上的潜力可以被系统性激发。

这些结果意味着，CTF-Dojo 不仅解决了过去「环境难以大规模配置」的工程难题，还验证了一个核心科学问题：网络安全智能体的性能能够随着执行数据的增加而持续提升。在已有 SWE 代理无法泛化的情况下，CTF-Dojo 给出了一条清晰的道路：通过规模化、自动化的运行环境收集轨迹，推动模型逐步逼近人类白帽黑客的实战水平。
从虚拟到实战的组合拳
把 Cyber-Zero 和 CTF-Dojo 放在一起看，就会发现它们形成了一个闭环。Cyber-Zero 提供的是安全、可扩展的训练数据来源，相当于一个虚拟训练营；而 CTF-Dojo 则是实战武馆，让模型在真实挑战中不断迭代。前者解决了数据与成本的问题，后者解决了能力习得与迁移的问题。两者结合，为 AI 白帽黑客的成长提供了完整路径。
这种设计思路的意义在于，它不仅追求理论上的可行性，还强调在生产环境中真正可部署。正如论文中展示的实验结果，Cyber-Zero 的数据生成和 CTF-Dojo 的环境构建都能规模化运行，且能在真实任务上带来可验证的性能提升。这标志着 AI 在网络安全方向正在逐步进入应用落地阶段。
未来意义与挑战
AI 白帽黑客蕴藏广阔前景：在企业安全团队中，它可以作为虚拟成员，自动扫描代码、发现潜在漏洞，并提出修复建议；在红队演练中，它可以充当对手角色，帮助测试防御系统；在教育场景中，它可以成为学员的「陪练」，提供个性化的挑战和反馈。更长远来看，随着成本降低和技术成熟，中小企业也有望借助这样的系统获得「普惠安全」。
但与此同时，这项技术的双重用途属性不容忽视。正如研究团队在论文中强调的那样，虽然 Cyber-Zero 和 CTF-Dojo 的初衷是帮助开发者和研究人员在软件部署前发现并修复漏洞，但同样的能力也可能被滥用于进攻目的，比如自动化发现外部系统的漏洞，甚至开发恶意工具。特别是 Cyber-Zero 的「免运行时」方法，降低了训练高性能网络安全智能体的门槛，使其更容易被更广泛的群体获取和使用。这种民主化的趋势既意味着安全研究的普及，也意味着风险的扩散。
实验结果已经证明，基于虚拟轨迹或执行验证数据训练的模型，能够在多个基准任务上达到接近甚至媲美闭源前沿模型的性能。这表明先进网络安全能力的民主化不仅在技术上可行，而且正在快速到来。如何确保这类能力更多地服务于防御，而不是被滥用于攻击，将是未来亟需讨论的议题。
在未来研究方向上，团队提出了几个值得关注的思路。一个是构建实时更新的 CTF基准：通过 CTF-Forge 自动重建比赛环境，把来自活跃 CTF 赛事的挑战容器化，用于动态评测和轨迹采集，实现可扩展、实时的 benchmark。另一个方向是强化学习，即让网络安全智能体直接与动态环境交互，并通过结构化奖励获得反馈。这种范式有望突破单纯模仿学习的局限，使模型能够发展出更普适、更具适应性的策略，更好地应对未知的安全问题。
因此，未来的关键在于平衡开放与安全。在推动技术进步与普及的同时，建立有效的安全护栏，需研究者、开发者、安全机构与政策制定者协同努力，确保这类强大工具以负责任的方式被开发和使用。唯有如此，才能真正增强整体网络防御能力，迎接一个更安全的智能时代。
参考资料：
[1] Zhuo, T. Y., Wang, D., Ding, H., Kumar, V., & Wang, Z. (2025). Cyber-Zero: Training Cybersecurity Agents without Runtime. arXiv preprint arXiv:2508.00910.
[2] Zhuo, T. Y., Wang, D., Ding, H., Kumar, V., & Wang, Z. (2025). Training Language Model Agents to Find Vulnerabilities with CTF-Dojo. arXiv preprint arXiv:2508.18370.
[3] https://x.com/terryyuezhuo/status/1962009753472950294
[4] https://github.com/amazon-science/Cyber-Zero

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

火山引擎有了它自己的Token经济学

罗永浩又要发疯：怒怼上海电信，千兆宽带竟不足百兆

TikTok签署协议，将美国业务出售给甲骨文等主导的合资企业

谷歌安卓16调整Emoji表情设计，风格向iOS靠拢

周受资内部信曝TikTok美国方案；腾讯辟谣元宝由真人运营丨邦早报

TikTok美国业务新进展：字节保留电商、广告等，引入三方组新合资公司负责数据安全

全站最新

火山引擎有了它自己的Token经济学

罗永浩又要发疯：怒怼上海电信，千兆宽带竟不足百兆

TikTok签署协议，将美国业务出售给甲骨文等主导的合资企业

谷歌安卓16调整Emoji表情设计，风格向iOS靠拢

热门推荐

火山引擎有了它自己的Token经济学

罗永浩又要发疯：怒怼上海电信，千兆宽带竟不足百兆

授权乱象频出，谁的同仁堂？

当“野性消费”退潮：鸿星尔克留下了什么？

英氏控股的优势只有品牌和广告吗？

为什么苹果、华为，都干不过小天才？

豪掷10亿美金投资OpenAI！迪士尼终于对AI妥协了？（深度观察）

从“宁王”到“易中天”，时代的“鱼群”在迁徙

阿维塔赴港IPO：一场针对“依附者”的价值审视

“铁饭碗”银行也开始末位淘汰了？普通人有机会，但没退路

君乐宝，想要逃出伊利、蒙牛的“五指山”

5 个月估值翻 3 倍！瑞典 AI 巨头 Lovable 获 3.3 亿美元 B 轮融资

十亿流量瞬间清零!YouTube 永久封禁两大 AI 虚假预告片“鼻祖”频道

OpenAI 更新 ChatGPT 以强化未成年人保护措施

告别信息淹没！ChatGPT 推出聊天置顶功能，让重要对话触手可及