当前位置: 首页 » 资讯 » 新科技 » 正文

起猛了!Arm推出首个自研CPU,黄仁勋贴大脸发言

IP属地 中国·北京 智东西 时间:2026-03-25 08:17:33


智东西
作者 ZeR0
编辑 漠影

属实没想到,卡着全世界移动芯片脖子的Arm,突然发布了自研CPU!

智东西3月24日旧金山现场报道,刚刚,3500亿颗芯片背后的半导体IP巨头Arm,推出首款由Arm自主设计的数据中心CPU——Arm AGI CPU


▲Arm CEO Rene Haas展示AGI CPU芯片

这是Arm发展35年来,首次推出对外销售的自研芯片,也是Arm全新数据中心芯片产品线的首款产品,标志着Arm正式进军数据中心芯片领域,将其高能效架构规模化引入AI基础设施。

Arm AGI CPU专为AI智能体基础设施打造,采用台积电3nm制程工艺、双Chiplet设计,单颗CPU集成136个Arm Neoverse V3高性能核心,配备2MB L2缓存,支持3.7GHz主频,提供每核心6GB/s内存带宽,内存时延低于100ns,采用96通道PCIe Gen 6接口,支持CXL 3协议,TDP达300W


Arm将其称作“全球最高能效的智能体CPU”,围绕性能、规模、能效三个原则来设计。


英伟达创始人兼CEO黄仁勋的巨脸出现在大屏幕上,祝贺Arm发布第一款数据中心芯片。


Arm AGI CPU的单核、系统级芯片、刀片式服务器及机架各层级均实现行业领先的性能表现。

通过更多可用线程与更高单线程处理能力相互叠加,该芯片可实现单机架性能达到x86平台的2倍以上,每1GW的AI数据中心算力资本支出节省高达100亿美元


它支持高密度1U服务器机箱的风冷部署方案,单机架可支持多达8160个计算核心;也支持液冷系统,单机架可实现超过45000个核心的部署规模。


Arm CEO Rene Haas分享说,按其估算,自人类诞生以来,大约共有1170亿人生活在这个星球上。而Arm芯片累计出货量已超过3500亿颗,足足是有史以来人类总数的3倍,是所有非Arm架构CPU累计出货量总和的7倍,平均每个全球家庭拥有160颗Arm芯片。

现在,Arm的核心业务包括三大块:IP授权、CSS(计算子系统)方案,以及自主设计的芯片产品


Arm AGI CPU现已开放订购,已交到客户手中,正在由客户评估,计划在年底前实现量产


Arm与永擎电子、联想、广达电脑、Supermicro等头部OEM厂商及ODM厂商展开合作,早期系统现已推出,永擎电子、联想及Supermicro已开放商用系统订购,更广泛的商用部署预计将于今年下半年落地


▲联想HR650A V3 2U机架服务器,配备两颗Arm AGI CPU

Arm还披露了后续产品规划,AGI CPU与Arm Neoverse CSS产品路线图将并行推进,计划2027年发布Arm AGI CPU 2和CSS V4,未来发布Arm AGI CPU 3和CSS V5,确保所有Arm数据中心客户在平台架构与软件兼容性方面实现协同发展。


在会后媒体问答环节,Rene Haas谈道,研发AGI CPU只是Arm商业模式的自然延伸,市场需求严重未被满足,中国可能是非常好的市场。

另据Arm云AI事业部执行副总裁Mohamed Awad分享,Arm也在认真研究NVlink等互连技术,已宣布将在未来版本的CSS中支持NVlink。

一、采用简化架构,没有多线程,摆脱x86 CPU的额外开销与复杂性

Rene Haas谈道,智能体的爆炸式增长催生更大的CPU需求。智能体本质上是一个工作流,大量工作涉及调度,这正是CPU所擅长的工作,是加速器做不了的。

打个比方,加速器负责生成token,就像推一辆翻斗车,需要有人去搬运那些土,CPU就是搬运土的设备。


根据Arm的估算,数据中心对每GW功耗提供的CPU算力需求将增长至当前的4倍以上,在相同功耗范围内,以前需要3000万CPU核心,现在需要塞入约4倍的1.2亿个CPU核心。

功耗是宝贵的,所需资本也是宝贵的。试图将如此多的额外CPU塞进一个已经被加速器和执行核心工作的CPU塞得满满当当的数据中心,是一道难题。


对此,Arm打造了其首款对外销售的自研芯片——Arm AGI CPU

为什么要做这件事?Rene Haas谈道,随着智能体AI走向主流,所有支撑其运转的工作都依赖CPU,这颗CPU必须天生就具备在电池供电下运行的基因。

x86架构背负着执行开销和对遗留功能的支持负担,选择了聚焦于模块化、支持大量不同市场和小众用例。而Arm专注于提升能效、降低延迟。


Arm AGI CPU从零开始设计,围绕三个原则:性能、规模、能效


(1)性能

高IPC(每周期指令数)一直是Arm的强项。传统CPU有时会试图通过提高主频、进入Boost模式来在这一维度上竞争,但提高主频,功耗也随之上升,这些Boost模式无法长期持续,也无法在整颗芯片上持续。而AGI CPU能提供全时间、可持续的满血性能。

(2)规模

Arm在核心数量上实现线性扩展,内存和IO子系统经过专门设计,与核心高度匹配。

一些传统架构采用多线程。多线程的实质是向同一个核心丢两个任务,但IO和带宽并不会因此翻倍,只是把瓶颈转移到了别处,而且CPU还必须承担管理这种来回切换的负担,导致性能下降,最终导致进程饥饿。

Arm反复观察到,数据中心运营商不得不超额配置数据中心30%甚至更多,来应对这种非线性扩展的问题。

Arm以无需这样做为傲。


▲AGI CPU与x86 CPU运行同一任务的表现对比

(3)能效

Arm对能效有着近乎偏执的专注。AGI CPU是专为目标场景打造的,没有任何遗留架构的包袱,不浪费任何一个周期,不存在搁浅的算力,不浪费任何一瓦的功耗。

在实测中,AGI CPU可提供持续性能,没有因超出功耗预算而导致的性能降频,没有内存或IO争用。


上图中,左边的AGI CPU和中间的x86 CPU柱形均在SMT(同步多线程)禁用的情况下测得,仅对比了单线程核心表现。

一个常见说法是,多线程能改善性能,带来更好的可扩展性。但如果开启多线程,结果如图中第三个柱形所示,性能下降、现实中每机架大量线程闲置、能效略有提升但不足以改变整体的算法取舍。

Arm云AI事业部执行副总裁Mohamed Awad解释说,如果对内存带宽的需求很低,SMT是合理的,因为可以共享带宽,当一个线程在等待时,可将CPU资源让给另一个线程。

但在智能体AI场景中,有大量线程需要同时支撑,有昂贵的加速器和昂贵的基础设施在等待,最不希望发生的事情就是分割I/O带宽或内存带宽,而是希望将那些I/O和内存带宽精确地专用给对应的进程。

“我们认为,这个最优值约为每秒4~6GB的带宽分配给每个核心,这正是我们的设计目标。在这类场景下,不实现SMT是更合适的选择,因此我们目前没有采用SMT的计划。”他谈道。

二、详解AGI CPU规格:3nm、136核、3.7GHz主频

从运行频率到内存及I/O架构,Arm AGI CPU每一处设计都经过专门优化,在高密度机架部署场景下,支持大规模并行、高性能的智能体AI工作负载。

AGI CPU采用台积电3nm制程工艺,基于标准Arm Neoverse V3计算子系统,单颗CPU集成136个Arm Neoverse V3高性能核心,配备2MB L2缓存,支持高达3.7GHz的主频。


该芯片提供每核心6GB/s内存带宽。领先的内存带宽使每个机架能支持更多高效执行的线程。相比之下,x86 CPU在持续高负载下会因核心争抢资源而导致性能下降。


Arm将整个系统设计为低延迟架构,使内存访问延迟低于100纳秒

为此,AGI CPU采用了双Chiplet设计,每个Chiplet将所有内存和IO直接集成其上,无需担忧复杂的NUMA域和跨硅片的多次跳转。

在互联方面,Arm AGI CPU采用96通道PCIe Gen 6接口,支持CXL 3协议,可连接任意加速器,同时支持内存扩展等功能。


其TDP(热设计功耗)为300W,每线程独立核心,可在持续负载下提供确定性性能,避免降频与线程闲置。

三、支持风冷和液冷,单机架性能达x86系统的2倍以上

为加速产品采用,Arm推出Arm AGI CPU1OU双节点参考服务器。该服务器采用符合OCP(开放计算项目,Open Compute Project)的DC-MHS标准规格设计。


Arm的参考服务器采用1OU双节点设计,每台刀片服务器中集成2颗CPU芯片,并配备独立内存与I/O,共计272个核心


AGI CPU支持高密度1U服务器机箱的风冷部署方案。下图是一个标准OCP风冷机架。这些刀片服务器可在标准风冷36kW机架中满配部署,30台双节点1OU刀片服务器可提供总计8160个核心


在该配置下,Arm AGI CPU可实现单机架性能达到最新x86系统的2倍以上。


此外,Arm与Supermicro合作推出200kW液冷设计方案,可容纳336颗Arm AGI CPU,提供超过45000个核心

Arm计划向OCP社区贡献该参考服务器设计方案及配套固件,并进一步提供包括系统架构规范、调试框架及适用于所有Arm架构系统的诊断与验证工具等资源。

这些贡献将惠及整个生态系统,对所有基于Arm的平台均有裨益。

更多细节将在即将举办的OCP EMEA峰会上公布。

四、与meta联合开发,还有多家首发合作伙伴

meta、OpenAI高管均来到Arm Everywhere大会现场并登台分享。

meta作为Arm AGI CPU的早期合作伙伴与客户,参与该CPU的联合开发,旨在为meta全系应用优化GW级规模基础设施,并与meta自研MTIA推理加速器协同运行,从而在大规模AI系统中实现更高效的编排与调度。


“这场联姻,我个人认为是双赢的,非常令人振奋,看到从单纯的IP授权提供商,走向真正参与构建生产级、生产就绪产品的行列,”meta基础设施负责人Santosh Janardhan谈道,“我认为最甜蜜的事情需要一些时间,而我们现在就要到了。”

他说meta和Arm谈合作,核心理由是想在每瓦内放入更多的核心,但不想在性能上有任何妥协。

现在每天有约35亿人使用meta的产品。每一次交互、每一篇帖子、每一个信息流、每一通电话,都建立在meta后端构建的基础设施之上,即定制数据中心、定制硬件和定制芯片。

大约两年半前,meta先做了市场调研,看看是否有哪款CPU能满足规格要求,结果要么满足了性能、功耗不满足,要么满足了功耗、性能不达标。

而Arm提供的可扩展性,让meta能够注入更多算力,做到了优化每瓦性能、每千兆瓦性能、优化meta全平台性能。

双方承诺将围绕Arm AGI CPU的多代芯片产品展开长期深度合作

其他首发合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK电讯

这些客户将在智能体CPU核心应用场景中部署Arm AGI CPU,覆盖加速器管理、控制平面处理、云与企业级API、任务与应用托管等领域。

在大会展区,SK电信旗下Rebellions展示了使用Arm AGI CPU作为头节点,在同一台服务器中有一批加速器的实例。


Arm展示了强大的“朋友圈”。超大规模计算服务商、云计算、芯片、内存、网络、软件、系统设计与制造等领域的50余家行业龙头企业,均对Arm计算平台向芯片领域拓展表示支持。


英伟达、谷歌、微软、亚马逊云科技、博通、Marvell、美光、微软、三星、SK海力士、台积电等企业的高管一通猛夸,认为Arm AGI CPU是整个生态系统发展的重要里程碑,将带来新一代定制化计算能力,进一步释放Arm生态系统的潜力,让更多客户能够便捷地获取Arm的计算能力,为所有基于Arm构建智能未来的合作伙伴创造新的重大机遇。

“我们很自豪能与Arm共同构建这个开放、可扩展、高能效的AI未来。加速计算并没有让CPU变得无关紧要,它让CPU成为不可或缺的合作伙伴。Arm架构已经成为我们所有平台的基础。”黄仁勋说,“Arm的适应性和可定制性,真正使我们能够将Arm整合至所有平台之中。”

结语:云端AI业务有望成Arm最大支柱,未来剑指1万亿美元市场

“全球没有任何一家公司的生态系统,能像我们这样从边缘端到云端贯通服务。”Rene Haas说。

他预测,云端AI业务可能在几年内成为Arm最大的业务。

如今数以万计的公司在云端运行其软件于Arm之上,依托已向全球数据中心交付的超过12.5亿个Arm Neoverse核心。这一增长仍在加速。


三十多年来,产业界基于Arm计算平台持续创新,在数千亿台设备上实现了可扩展、高能效的计算能力。整个生态系统正寻求大规模部署Arm技术的方案。


“今天标志着Arm计算平台迈入全新发展阶段,也成为公司发展的重要里程碑。”Rene Haas谈道,AI从根本上重塑了计算的构建与部署,智能体计算正加速这一变革,随着Arm AGI CPU芯片推出,Arm将助力智能体AI基础设施实现全球规模化部署。

在审视智能体AI发展、CPU需求增长、高能效CPU为数据中心带来的价值后,Arm预判这在未来将代表约1000亿美元的TAM。


“将我们在所有市场上积累的成果,从边缘到云端,从毫瓦到千兆瓦,我们有机会在一个1万亿美元量级的市场中大展身手。”Rene Haas说。


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。