当前位置: 首页 » 资讯 » 新科技 » 正文

AI杀死了AI!Cloudflare全球崩盘惨案,元凶已被原地解雇

IP属地 中国·北京 新智元 时间:2025-11-19 14:21:01


新智元报道

编辑:定慧

一次「常规更新」搞崩半个地球,Cloudflare CTO紧急谢罪:我们搞砸了!Cloudflare自杀式Bug引发连锁反应,波及全球20%网站。当数百万爬虫撑爆了防御名单,Cloudflare的崩溃揭示了AI时代最深的基建隐忧,人类还能跟得上AI进化的脚本吗?

果然这个世界建立在脆弱性之上。

昨天,2025年11月18日,全球AI数字生态系统经历了一次近乎心跳骤停般的休克。

Cloudflare崩溃了!

然后全球五分之一的互联网服务几乎全部宕机,尤其是,AI巨头集体断网!ChatGPT、X全线崩盘!

当你还在拿着这个图调侃的时候。。。


殊不知,真正的情况是,Cloudflare现在互联网真正的底座。


马斯克在之前亚马逊宕机时还调侃,这次终于是风水轮流转!


只不过,老马没想到的是,这次CF的影响直接让自己家服务也宕机了~



Cloudflare的CTO赶紧发了个申明:是我们的错误,立正挨打。

下面会详细介绍这次引发故障的原因,简直就是草台班子级别,只能说人类社会用规则来和计算机打交道还是太脆弱了!


先说说这次事故的影响。

这起事故影响范围之广前所未见,被称为「半个互联网的停摆」毫不夸张——约20%的网站依赖Cloudflare提供服务

Cloudflare还有个称号叫做赛博活佛,特别是在极客群体中,很多服务,如果个人用都是免费的。

这里作为对比,必须夸一下咱们国内的基建服务了,不管是微信、B站、视频网站,你很少碰到如此级别大规模的故障。(ToB的服务不细讲,这个离普通消费者也很远)

故障高峰时,网站故障追踪平台Downdetector收到了累计逾210万条报错反馈,成为近年来最严重的基础设施级中断之一。

包括亚马逊、Spotify、Zoom、Uber等知名服务也受到波及(部分功能异常或加载缓慢)。

Cloudflare作为支撑全球海量流量的「隐形基建」,一次失误便牵一发而动全身,令股价盘中一度重挫约7%。

更令人深思的是,一些本用于监测网络故障的工具(如Downdetector)因本身也使用Cloudflare,甚至在事故中一同瘫痪—整个互联网生态对单一底层的依赖程度,由此可见一斑。

更「细思极恐」的是,当Cloudflare的工程师想要打开ChatGPT来修复故障时,AI也宕机了~


很多网友都形容那宕机的三个小时,如此「黑暗」,就像回到了远古时期。


Cloudflare这次导致全球断网的技术故障,其实是一次典型的「好心办坏事」。


网友们制作的恶搞图

简单来说,就是工程师试图升级安保系统的权限,却意外让负责安检的软件「吓晕」了。

(如果是AI来操作,以硅基同步的能力和运算的能力,大概率不会出这种岔子,这也就是碳基人类写下的固定规则才能导致了,还是人类规则太脆弱了。这里让我联想到马斯克为啥一直坚持FSD使用纯视觉,就是人类你不可能遍历所有驾驶过程,就像这次CF的故障,没有工程师能预先为这种场景写下规则)

根据Cloudflare官方博客的复盘,事情是这样发生的:


起因是系统「大扫除」。

工程师原本在进行一项常规的维护工作,目的是为了提高安全性。他们调整了数据库的权限,想把原本公用的「系统账号」改成责任更明确的「个人账号」。

然后这个看似无足轻重的操作,触动了隐藏在系统中「旧伤」。

系统里潜伏着一段很老的代码,它负责生成一份用来识别网络机器人的「特征名单」(Feature File)。

这段代码以前只在一个默认的数据库里找名单,所以没问题。

但这次权限升级后,它突然能看到另一个备份数据库了。

由于代码里没写清楚「只看哪一个」,它傻乎乎地把两边的名单都抓取了过来,名单被「膨胀」了。

这导致那份原本精简的「特征名单」瞬间膨胀,内容重复了一倍。

结果就是,保安「罢工」。

Cloudflare负责在全球各地转发流量的核心软件有一个硬性规定:为了保证速度,名单长度不能超过200条。

当这份意外「发福」的名单被推送到全球服务器时,软件发现名单太长读不完,直接触发了内存溢出保护机制(Panic),也就是彻底崩溃。

为了安全起见,它切断了所有连接。

简单说就是,本来机器数据库权限不够,调整后,它突然权限高了点,然后也没有为这个情况提前写下判断代码。

打个再通俗的比方(可能不是那么准确)。

这就好比大楼物业给保安发了一副新眼镜(升级权限),本意是让他看得更清楚。

结果因为新眼镜度数没调好,保安看手里的「访客黑名单」时出现了重影,原本100人的名单在他眼里变成了200人。

保安的脑容量(系统限制)记不住这么多人,瞬间由于信息过载而「死机」晕倒,导致大楼门禁系统自动锁死,把所有访客(包括X和ChatGPT的用户)都关在了门外。

不过目前问题已经修复了(其实不是啥大问题,就是逻辑改改就行)。


如果不只是把这次事故看作一个单纯的技术故障,而是放在2025年「AI疯狂吞噬数据」的背景下去看,你会发现这充满了黑色的讽刺意味。

AI杀死AI

导致这次崩溃的核心组件是「机器人管理系统(Bot Management)」。

在2025年,这个系统的主要假想敌是谁?正是AI爬虫。

随着大模型训练对数据的极度渴求,互联网上充斥着无数自动化的AI抓取程序。

Cloudflare作为「守门人」,必须不断升级其算法来区分「真人」和「AI机器人」。

特征文件(Feature File),对就是报告中提到的那个导致崩溃的「特征文件」,实际上就是机器学习模型用来判断流量性质的「参数集」。

每一个「特征(Feature)」都是一个判断维度(比如鼠标移动轨迹、点击频率、IP行为模式等)。

为了应对越来越狡猾的AI机器人,Cloudflare的防御系统变得越来越复杂,需要调用的「特征」越来越多。

这次故障的直接原因就是数据库错误地吐出了过多的特征数据,导致防御系统的「大脑」过载

这不是一次普通的软件崩溃,这是「数字免疫系统」在试图升级以对抗AI病毒时,因自身的排异反应而休克。

这次事件最荒诞的地方在于受害者名单

OpenAI、xAI、Perplexity这些是全球最大的AI公司,它们同时扮演了两个角色:

它们的爬虫在全网搜刮数据,迫使Cloudflare建立更复杂的防御系统(即这次崩溃的源头)。

它们自己也极其依赖Cloudflare来防止被别人攻击或滥用。

结果呢?

Cloudflare为了防御AI抓取行为而维护的系统,因为一次配置错误,反过来「杀死了」最顶级的AI服务商。

这就像是为了防止野兽入侵而把城墙修得太高太重,结果城墙倒塌,把住在城里的国王(AI巨头)给压垮了。

这揭示了AI时代基础设施的内卷化困境——为了对抗技术的滥用,我们不得不把基础设施造得越来越复杂、越来越脆弱。

你问这和AI有什么关系,或许这就是AI时代的「技术债」。

这里有一个更深层的隐喻:「特征膨胀」

在传统的软件工程中,逻辑通常是线性的。

但在涉及AI和机器学习的防御体系中,系统依赖于成百上千个「特征」来进行概率判断。

这次故障是因为特征数量突破了200个的硬编码限制而引发的。

这暴露了一个问题:我们正在构建一种人类难以完全掌控的「黑箱基建」。

为了拦截智能程度极高的AI机器人,防御规则不能再是简单的黑白名单,而必须是动态的、基于行为分析的复杂模型。

这种复杂度的指数级上升,意味着未来类似的「不可预测的崩溃」会越来越多。

我们正在用复杂的AI(防御)去对抗复杂的AI(进攻),而夹在中间的,是脆弱的物理互联网。

这次宕机不仅是一个配置错误,它是人类互联网为了适应AI寄生而进行的一次痛苦痉挛。

它是「矛」(AI抓取)与「盾」(AI防御)在无限升级的军备竞赛中,把战场(互联网基础设施)给撑爆了。


但是,这波也有用AI来打败AI的正面例子。

比如,吴恩达团队就在Cloudflare宕机的过程中,用AI快速实现了Cloudflare功能的克隆版本,成为最早一批恢复运行的网站。

属实是用魔法打败魔法了!


最后再放一个彩蛋。

彩蛋:元凶被原地解雇

X上这位名为Rob Hallam的哥们发了个帖子。

说他正是那位搞崩全球互联网的工程师(可能是之一)。

自称是,能用单个正则表达式让20%互联网瘫痪,哈哈哈



参考资料:

https://blog.cloudflare.com/18-november-2025-outage/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。