当前位置: 首页 » 资讯 » 新科技 » 正文

Anthropic训出Claude最强大模型,但普通用户没法用?

IP属地 中国·北京 编辑:柳晴雪 第四波智库 时间:2026-04-08 22:14:11

研究员|冯皓钦

北京时间4月8日凌晨,Anthropic做了一件看似违背整个AI行业逻辑的事。他们发布了一个内部代号为 Claude Mythos(神话)的新模型——一个在能力上明显跨代的系统,但同时明确表示:拒绝发布,不会向公众开放。

而恰恰在同一时间,中国AI大模型公司智谱AI选择把自家的新模型GLM-5.1直接开源。一边是“太强所以不发”,一边是“能力跃升直接放出”,两条路线在同一天被摆到了台面上。

从结果上看,Claude Mythos不是一次普通的常规升级。

在衡量真实工程能力的SWE-bench Pro测试中,它的得分从上一代53.4%直接跃升到77.8%;在多语言复杂环境下甚至达到87.3%。能力边界被整体抬高一截。

类似的跃迁还出现在多个维度:

· Humanity’s Last Exam:从40%+提升到接近65%

· GPQA Diamond(科学推理):达到94.6%

· OSWorld(系统操作能力):接近80%

这些指标说明:Claude Mythos(神话)模型已经不只是“会写代码”,而是开始具备“接管系统”的能力。

更关键的是,这些能力并不是专门为“网络安全”训练出来的。Mythos的安全能力,是在代码能力、推理能力和自主性整体提升之后“自然涌现”的结果。

它意味着,这不是Anthropic“选择做或不做”的能力,而是任何更强通用模型都会顺带拥有的能力。

而当模型开始会“主动攻击系统”,事情就变了。

如果说benchmark只是实验室数据,那么真正让Anthropic为这一模型踩刹车的,是Mythos在现实环境中的表现。

在过去几周的测试中,这个模型完成了一系列此前只有顶级安全研究员才能做到的事情:

· 在OpenBSD中发现一个存在27年的深层漏洞

· 在FFmpeg中定位一个16年未被发现的问题

· 在Linux内核中,将多个漏洞串联,实现权限跃迁

此外,它不仅“发现漏洞”,还能够:

· 自动生成 exploit

· 组合攻击路径

· 在无指令情况下扩展行为

甚至在一次测试中,模型成功突破沙箱环境后,主动向研究人员发送通知,并将攻击结果发布到外部站点。这已经不是“工具”层面的能力,而是带有明显自主行动倾向的系统行为。

也正是这一点,再加之Claude模型一直以来都被采用闭源路线,这让Anthropic最终选择不公开发布。

同天,另一条鲜明路线也在发生。

与Claude Mythos形成强烈反差的是,智谱AI发布并开源了GLM-5.1,把重点直接放在了编程能力上,对标甚至超越GPT-5.4。

这场开源本身并不复杂,但放在同一个时间点,就很有对比感:

· Anthropic:模型能力太强,被限制发布,只给少数机构使用

· 智谱AI:能力提升,直接开源,扩大开发者使用范围

前者选择的是收紧能力扩散,后者选择的是加速能力扩散。

且在执行层面,两边也体现出完全不同的处理方式。Anthropic联合Google、Microsoft、Apple等公司,通过“受控访问”的方式,让模型优先用于漏洞扫描和系统加固。而开源模型,直接进入开发者生态,被用来写代码、做工具、接入业务。

Anthropic的做法,本质上是“先收再放”,先在小范围内用起来,等关键问题处理完,再考虑更大范围。而开源路径是“先放再长”,先让模型进入生态,把能力交给更多人去用,通过使用再来不断扩展能力和应用边界。

路径不同,实际举措固然会有差异,模型技术上的差距虽然存在,但目前来看,开源路线的选择更易被用户和开发者所接受。

编辑|邱慧

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新