当前位置: 首页 » 资讯 » 新科技 » 正文

OpenAI也开始恐惧自己训练出的新模型了

IP属地 中国·北京 新智元 时间:2026-04-12 21:06:01


新智元报道

编辑:艾伦

看到 Anthropic 内测中的下一代旗舰模型 Mythos 强大的网络攻防能力带来的巨大影响和讨论度,奥特曼坐不住了,也计划内测 OpenAI 具有强大的网络攻防能力的 AI。

4 月 9 日,Axios 爆料:OpenAI 正在准备一款具备很强网络安全能力的产品,只会先给少量合作伙伴开放。


https://x.com/axios/status/2042244222292529371

这件事背后,真正值得聊的,不是 OpenAI 又要发什么新东西。

而是另一件更吓人的事,AI 在网络安全这件事上,可能真的跨过那条线了。

如果你这几个月一直在关注 AI,你会发现一个特别微妙的变化。

前两年大家聊模型,聊的是会不会写文案,会不会做 PPT,会不会写代码。

再后来,开始聊 Agent,聊自动执行,聊能不能自己调用工具。

到了现在,讨论已经往另一个方向滑过去了。

它能不能自己找到漏洞、复现漏洞、利用漏洞。

这几个问题,听着像安全圈内部会议,不像普通人会关心的事。

但坦率的讲,一旦答案开始接近「能」,这就不是一个黑客圈的小新闻了。

这是基础设施级别的大事。

因为漏洞这个东西,不是你电脑蓝屏了重启一下那么简单。

漏洞连着水厂,电网,医院,银行,浏览器,操作系统,云服务。

过去这些东西主要靠顶级安全研究员、红队、国家级机构慢慢挖。

现在,模型开始下场了。

而且不是那种帮你补全两行代码的下场,是那种你晚上把任务交给它,第二天早上起来,它把 PoC、利用链、修补建议都给你摆桌上的下场。

只是对 Anthropic Mythos

PR 策略的简单模仿吗?

就在最近,Anthropic 也做了一个很反常的动作。

他们没有像往常一样高调推新模型,而是把一个叫 Claude Mythos Preview 的模型,塞进了一个叫 Project Glasswing 的封闭计划里,只给少数科技公司和安全公司用。

Anthropic 官方给出的理由是:这个模型太强了,强到不适合立刻公开。

Anthropic 公布的一些测试细节,说真的,已经有点赛博惊悚片的感觉了。

它能在大规模开源项目里找到高危漏洞,能把漏洞一路推进成可利用的攻击链,甚至写出跨多个漏洞的复杂利用。

更夸张的是,Anthropic 的研究团队还提到,连没有正式安全训练背景的内部工程师,都能让它隔夜去找远程代码执行漏洞,第二天醒来就看到一份可运行的利用结果。

你敢信?

过去我们总觉得,找 Bug 跟真正把系统打穿,中间还隔着一道很深的河。

前者更像质量检查,后者更接近武器化。

但现在这条河,正在被模型一点一点填平。

所以你再回头看 OpenAI 这个动作,就能理解那种空气里的紧张感了。

OpenAI 其实在今年 2 月就已经埋了伏笔。

他们发布 GPT-5.3-Codex 的时候,专门搞了一个 Trusted Access for Cyber 计划。

这个计划是邀请制的,还承诺拿出 1000 万美元 API credits,给做正当防御研究的机构用。OpenAI 自己的说法是,GPT-5.3-Codex 是他们迄今为止最具网络安全能力的模型,而且是他们第一次在网络安全这个维度上,按高能力等级来上安全栈。

这话翻成人话其实就是,模型已经强到他们自己也得紧张起来了。

这一轮变化最吊诡的地方就在这儿。

AI 公司一边在拼命造出更能打的模型,一边又开始试图限制谁能摸到这些能力。

它像极了一个军火商突然发现,自己卖的已经不是刀,而是会自己找目标的导弹。

你说他们做错了吗?也不能这么讲。

站在安全公司的角度,这种限制非常合理。你总不能把能自动找零日(0Day,指未公开的全新漏洞)、自动写利用链的东西,像聊天机器人一样直接公开。

尤其 Anthropic 自己都说了,Mythos 已经在各大操作系统、主流浏览器、关键基础软件里找到了成千上万的高危漏洞。

连内部沙箱都被它想办法突破过。

那种感觉不是「模型更聪明了」,而是「能力的社会后果开始外溢了」。

但另一面也很现实。

这种东西一旦被证明存在,就不可能再回去了。

SANS 的 Rob Lee 说:「你已经没法阻止模型去做代码枚举,也没法阻止它在老旧代码库里找缺陷,因为这种能力现在已经存在了。」

Palo Alto Networks 的高管也差不多是一个判断,今天你挡住一家,几周或者几个月后,别的模型也会追上来。


https://www.axios.com/2026/04/09/openai-new-model-cyber-mythos-anthopic

这才是真正让人后背发凉的地方。

不是某一家公司太强。

是这个门槛一旦被跨过去,全行业都会陆续跟上。

而且更有意思的是,安全圈里很多人已经开始用一个老概念来理解这波变化,责任披露。

软件世界几十年来一直在吵一个问题,发现漏洞之后,是立刻公开,还是先私下通知厂商修补,等补丁打完再披露。

现在 AI 模型的发布,也越来越像这个逻辑了。

不是做不做出来的问题,而是先给谁,什么时候给,怎么控节奏,怎么避免它先落到最坏的人手里。

这是不是一个特别奇怪的时代切片?

以前我们怕 AI 太笨,现在我们怕它太会干活。

而且最讽刺的是,真正把这件事推到公众面前的,还不是黑客真的用它打爆了什么系统,而是模型公司自己先害怕了。

这就像地震还没来,地质学家先开始疯狂加固楼板。

!了 转 反

说到这块,还有一个容易被忽略的点。

很多人看到 Axios 最初的标题,以为 OpenAI 是准备把还没发布的旗舰模型先只给小圈子试用,像 Anthropic 对 Mythos 那样,对大众暂缓开放。

但后面 Axios 通过进一步求证 OpenAI,自己修正了表述。

OpenAI 这次准备给特定合作伙伴开放的,不是那个尚未发布的新旗舰模型 Spud,而是一款独立的网络安全产品。


https://x.com/axios/status/2042244444724904190

这个区别挺重要的,因为它说明 OpenAI 现在的思路,未必是把下一代通用旗舰整个锁起来,而更像是把最危险、最敏感、最接近攻防边界的那部分能力,先包装成专门的安全产品,只放给经过筛选的防守方。

这反而更说明问题了。

AI 公司已经开始接受一个现实,未来最前沿的模型能力,不会再以同一种方式流向所有人。

有些能力会被做成大众产品,有些能力会被塞进封闭计划,有些能力甚至会长期停留在少数机构手里。

模型还是那个模型,但世界会开始分层。

普通用户拿到的是好用、顺滑、足够强的那一层。

顶级企业和安全机构拿到的是更深、更危险、也更有防御价值的那一层。

再往里,可能还有连合作伙伴都接触不到的内部能力。

某种意义上,这有点像 AI 时代的核扩散治理,也有点像另一种版本的北京折叠。

你表面上看到的,是大家都在用 AI。

真正决定攻防平衡的,却可能是那一层你看不见、摸不着、只在少数白名单里流动的能力。

这是好事啊?

这件事短期内一定会让人不安,甚至会让技术权力变得更集中。

但从更现实的角度看,在一个模型已经能自己找洞、自己写利用链的时间点上,先把能力交给防守方,总比所有人一起裸奔要好。

只是这件事也提醒我们,AI 竞赛已经不是谁的聊天更自然,谁的界面更丝滑了。

真正的比赛,正在往系统底层走。

往浏览器走,往内核走,往云平台走,往关键基础设施走。

往那些平时没人会在意,但一旦出事就全社会一起抖一下的地方走。

而 OpenAI 和 Anthropic 这两次一前一后的动作,可能就是一个信号。

AI 不只是开始替人工作了。

AI 开始进入人类最古老、也最敏感的博弈里了:防守和进攻,披露和封锁,开放和分级,效率和失控。

参考资料:

https://www.axios.com/2026/04/09/openai-new-model-cyber-mythos-anthopic


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。