当前位置: 首页 » 资讯 » 新科技 » 正文

AI芯片:回望过去一年,展望2026

IP属地 中国·北京 钛媒体APP 时间:2026-03-24 12:27:37

文 | 云石乱笔

2026年3月,全球半导体产业正处于一个关键转折点。AI芯片驱动行业收入逼近万亿美元大关,但繁荣的表象之下,竞争格局正在经历深刻的重塑。从Nvidia的GTC 2026大会到Tesla宣布自建晶圆厂,从Google TPU打入外部市场到AMD发起正面挑战,过去一年发生的一切,正在重新定义AI算力的未来版图。

万亿美元的赛道:数字背后的结构性变局

全球半导体行业正以惊人的速度膨胀。据世界半导体贸易统计组织(WSTS)数据,2026年全球芯片销售额预计将达到9750亿美元的历史峰值,同比增长约26%。而这一增长的核心引擎,就是AI芯片。

德勤在其2026年半导体行业展望报告中估算,生成式AI芯片的收入将在2026年接近5000亿美元,约占全球芯片销售额的一半。AMD CEO苏姿丰(Lisa Su)更是将AI数据中心加速器芯片的总可寻址市场预期上调至2030年1万亿美元。

但数字的光鲜掩盖了一个深刻的结构性矛盾:AI芯片贡献了约50%的行业收入,却仅占芯片总出货量的不到0.2%。2025年全球共售出约1.05万亿颗芯片,平均售价仅0.74美元,而AI芯片不过约2000万颗。这意味着,整个行业的繁荣高度集中在极少数高价值产品上。

与此同时,非AI领域的市场表现令人担忧。由于AI对HBM(高带宽内存)和先进制程产能的大量占用,特定DDR5配置的消费级内存价格在2025年9月至11月间飙涨约4倍,PC和智能手机市场预计在2026年出现下滑。德勤将这种现象描述为一个"高风险悖论",行业把所有鸡蛋放进了AI这一个篮子里。

Nvidia:王座之上的焦虑

过去的一年,没有人比Nvidia更能体现AI芯片的统治力与焦虑感。

2026年3月16日,Nvidia在GTC(GPU Technology Conference)2026大会上发布了一系列重磅产品。最受瞩目的当属Vera Rubin超级芯片架构,基于台积电N3B工艺,搭载HBM4内存,单颗VR200封装可提供惊人的35 petaFLOPS FP4算力,配备288GB超高速HBM4(带宽目标22TB/s)。72颗VR200组成的NVL72机架,将再次刷新AI算力的天花板。

但真正让行业意外的是另一个消息:Nvidia以约200亿美元与推理芯片公司Groq达成技术授权协议,引入Groq创始人Jonathan Ross、总裁Sunny Madra及核心团队,并在GTC上发布了Groq 3 LPU(语言处理单元)。这不是一次简单的技术引进。Groq的LPU采用确定性执行架构,内置230MB超快SRAM,没有外部内存,却能以极低延迟运行AI推理任务。Nvidia推出的Groq 3 LPX平台,由128颗Groq 3 LPU组成的机架与Vera Rubin NVL72协同工作,号称可实现每兆瓦35倍的吞吐量提升和10倍的收入机会。不过,当前的Groq 3仍基于较早的架构演进,而基于三星4nm工艺的第二代LPU已在研发中。Nvidia拿到的不只是一颗芯片,更是一条完整的推理芯片技术路线。

这一布局的战略意义非常清晰:当行业重心从训练转向推理,Nvidia需要一款专用推理芯片来捍卫自己的领地。正如Nvidia超大规模与高性能计算副总裁伊恩·巴克(Ian Buck)所言,GPU的内存更大,而LPU的内存更快,两者结合,才能覆盖从万亿参数模型到百万token上下文的全场景推理需求。

Nvidia还发布了独立的Vera CPU机架,将256颗液冷Vera CPU集成在一个系统中,专门针对正在兴起的AI Agent工作负载。当AI Agent需要浏览网页、提取数据、执行多步推理时,CPU性能变得至关重要。这是Nvidia从GPU公司向全栈AI算力平台进化的又一步。

Nvidia的数据中心收入在2026财年达到1935亿美元,较上年的1162亿美元大幅增长。但市场份额正在面临空前的挑战。

挑战者联盟:从追赶到正面较量AMD:内存为王的赌注

如果说2025年AMD还在奋力追赶,2026年可能是它扳回一局的转折点。

AMD即将推出的MI455X基于全新的CDNA 5架构,采用12颗2nm和3nm逻辑Chiplet的混合设计,通过先进的3.5D封装连接,总计3200亿晶体管。最大的卖点是内存配置:432GB的下一代HBM4,带宽接近20TB/s。这在内存容量上超过了Nvidia的Vera Rubin(288GB HBM4),至少在Rubin Ultra推出之前(后者将配备1TB HBM)。

但MI455X只不过是拼图的一半。真正决定AMD这次能否改变格局的,是Helios机架架构。

过去几年,AMD在AI芯片的单卡性能上并不逊色,MI300X和MI355X都交出了不错的成绩单,但市场份额始终难以突破。原因不在芯片本身,而在系统。Nvidia的统治力建立在NVlink、NVSwitch和NVL72整套机架级互连方案之上,客户买的不是一颗GPU,而是一套从芯片到机架、从硬件到软件的完整生态。AMD长期缺少的正是这一环。

Helios是AMD对这一短板的正面回应。它不再只是把多颗MI455X装进一个机柜,而是提供了一套完整的机架级系统架构,包括高速互连、统一的内存寻址和针对大规模AI工作负载的Scale-up/Scale-out方案。Semi Analysis的深度分析指出,Helios的意义在于AMD第一次在系统层面向Nvidia的NVL72发起了对等挑战,不只是卖芯片,而是卖方案。

对AMD而言,Helios的成败可能比MI455X本身更关键。芯片规格再强,如果无法提供客户从Nvidia生态迁移过来的完整路径,就只能停留在纸面上。Helios能否按时交付、软件生态能否跟上、大客户是否愿意为第二选择投入资源,这些问题的答案将决定AMD在AI芯片领域究竟是永远的"第二名",还是做个真正的竞争者。

Google Ironwood TPU:十年磨一剑

Google可能是AI芯片领域真正的"老兵",第一代TPU早在2015年就投入使用,比Nvidia的第一款Tensor Core GPU还要早两年。当整个科技圈还在为区块链狂热的时候,Google已经在为AI时代铺路。更不用说,开启大模型时代的那篇"Attention Is All You Need"论文,本质上就是Google的成果。

2025年11月发布的Ironwood(TPU v7)是Google最新的杰作。基于台积电N3E工艺,采用双芯片(dual-chiplet)设计,配备192GB HBM3E内存,专为运行Gemini系列模型的推理任务而设计。Ironwood最独特的优势在于Google的光学电路交换技术,利用微型物理镜面实现超高效光学互连,可将最多9216颗TPU连接成一个超级Pod,这种规模的单一集群是当前任何竞争对手都无法匹配的。

Ironwood真正的战略意义在于,Google开始将TPU开放给外部客户。据报道,meta正在就2027年起采购数十亿美元Google AI芯片进行谈判。Forrester分析师Alvin Nguyen评价说:"Nvidia无法满足所有AI需求,Google和AMD等替代方案在云服务和本地AI基础设施方面都是可行的。客户只是在寻找实现AI目标的途径,同时避免供应商的锁定。"

然而,Ironwood有一个明显的"缺口":它是一颗专为推理设计的芯片。在大模型训练领域,Google目前仍主要依赖上一代Trillium(TPU v6e)和Nvidia GPU的组合。要真正构建一个能与Nvidia端到端抗衡的完整生态,Google需要的不只是一颗推理冠军,还需要一颗同样能在训练场景中硬碰硬的下一代芯片。

这正是TPU v8被行业寄予厚望的原因。虽然Google尚未公开披露v8的具体规格和时间表,但从Google过去十年几乎保持一年一代的TPU迭代节奏来看(v5e/v5p于2023年、Trillium于2024年、Ironwood于2025年),v8在2026年下半年或2027年初亮相是合理的预期。

v8的战略定位几乎可以确定:补齐训练这块拼图。Ironwood已经证明了Google在推理芯片上的竞争力,但meta等外部客户之所以还在大量采购Nvidia GPU,核心原因正是训练工作负载。如果v8能在训练性能上与Nvidia的Vera Rubin正面抗衡,Google就将成为唯一一家同时拥有世界级训练芯片、世界级推理芯片和世界级AI模型(Gemini)的公司,一个完全垂直整合的AI算力帝国。Amazon的Trainium服务于云客户但自身没有前沿AI模型,Microsoft的Maia推理能力强但训练仍依赖Nvidia,meta的MTIA只服务内部工作负载。只有Google具备"TPU + Gemini + Google Cloud"三位一体的条件。

当然,这条路上最大的障碍不是硬件本身,而是软件生态。Nvidia的CUDA经过十余年积累,已成为AI开发的事实标准,拥有庞大的开发者社区和成熟的工具链。Google的TPU则依赖JAX/XLA编程模型,虽然在Google内部和部分研究机构中广泛使用,但在更广泛的企业市场和开发者生态中仍远不及CUDA的渗透率。即使v8的硬件规格全面超越Vera Rubin,如果无法降低客户从CUDA迁移的门槛,TPU的外部化进程仍将受到制约。这也是Google能否从"内部利器"转型为"行业平台"的关键考验。

十年前,没有人认为Google会成为Nvidia在AI芯片领域的主要挑战者。但2026年的现实是:Google拥有最长的AI芯片研发历史、最独特的光学互连技术、最强的AI模型之一,以及一个刚刚开始接受外部客户的云芯片平台。TPU v8如果如期到来,可能标志着AI芯片行业从"Nvidia一家独大"向"Nvidia vs Google双极格局"转变的真正开端。

差异化路径:另辟蹊径的挑战者高通(Qualcomm):大卫挑战歌利亚

在GPU双雄和云厂商自研芯片之外,还有一个不该被忽视的名字:高通。

高通直到最近才完成首次大规模部署:1024颗AI100芯片组成的集群。问题是,这批硬件已有三年历史,底层架构更是接近六年前的设计。千颗规模在2026年几乎不值一提。但真正值得关注的是2025年10月发布的AI200。这颗ASIC基于台积电N3E工艺,包含约700亿晶体管,配备768GB LPDDR5X内存,明确瞄准推理市场。

高通的策略与众不同:选择LPDDR5X而非供应紧张的HBM。一年前这看起来是个聪明的差异化选择,避开了HBM的产能瓶颈,用大容量低功耗内存服务推理场景。但随着内存价格全线飙涨,LPDDR5X同样未能幸免,这一成本优势正在缩水。AI200大概率不会在2026年掀起大的波浪。

不过,高通的路线图上有一个更值得期待的节点:下一代AI250将采用全新的存算一体(Compute Near Memory)架构,据高通披露,可实现有效内存带宽10倍的提升,并搭配下一代LPDDR6内存。如果Nvidia是歌利亚,高通很可能是那个手持弹弓的大卫,暂时还够不到头部战场,但技术路线足够独特,值得持续关注。

Cerebras WSE-3:整片晶圆的异类

在所有AI芯片中,Cerebras的WSE-3(Wafer Scale Engine 3)可能是最"另类"的存在。顾名思义,它将整片硅晶圆制成一颗芯片,不是Chiplet拼接,而是真正的单片。

WSE-3于2024年发布,但2026年初刚刚宣布了新的集群部署。它基于台积电N4P工艺,包含4万亿颗晶体管,内置44GB SRAM,理论内存带宽高达21 PB/s。一切指标都是"天文数字级"的。但问题在于,到了2026年,44GB的片上内存对于运行大模型来说已经捉襟见肘,即便它是速度极快的SRAM。WSE-3仍然在超低延迟推理服务场景中保持竞争力,但它可能正在成为这一代的"落单者"。行业期待的是WSE-4能否带来足够的内存扩展来重回主流视野。

科技巨头的"自研芯片"浪潮

过去一年最引人注目的趋势之一,是越来越多的科技公司选择自研AI芯片,从Nvidia的客户变成Nvidia的潜在竞争者。

Amazon的自研芯片战略可能是所有超大规模云厂商中部署规模最大的。AWS已在其数据中心部署了数十万颗Trainium 2芯片,而2025年12月发布的Trainium 3 UltraServer性能较前代提升了4倍以上,能效提高40%。Trainium 3基于台积电N3P工艺,包含约1250亿晶体管,配备144GB HBM3E。

但Trainium 3真正耐人寻味的,不只是技术规格,而是它背后的资本游戏。Amazon向Anthropic累计投资约80亿美元。作为回报,Anthropic将Claude模型的训练和运行大量迁移到AWS的Trainium芯片上。这不是简单的客户关系。Amazon用真金白银"买"来了最顶级AI实验室对自研芯片的验证,而Anthropic获得了前沿模型研发所需的海量算力。双方的利益深度绑定:Amazon需要Anthropic证明Trainium能跑最难的工作负载,Anthropic需要Amazon的资金和基础设施来保持与OpenAI的竞争力。Claude在Trainium上训练成功这件事本身,就是Amazon自研芯片战略最有力的市场背书。

更值得玩味的是OpenAI的选择。OpenAI的最大投资方是Microsoft,后者正在用自研的Maia 200芯片打造Azure上的AI推理基础设施。但OpenAI同时宣布将从2026年起使用2GW的AWS Trainium算力,这意味着Microsoft最重要的AI盟友,同时也在用Amazon的芯片。在AI算力供不应求的当下,没有任何一家AI实验室能承受把所有赌注押在单一供应商身上。Anthropic同样如此。在拿了Amazon的80亿美元之后,又计划从Google Cloud获取多达100万颗TPU的算力,同时还在使用Nvidia GPU,在三家供应商之间维持着精心计算的平衡。

业内分析师将这种模式称为"循环融资":云厂商投资AI公司,AI公司反过来购买云厂商的算力和芯片,资本和算力在几家巨头之间循环流动。这已经不是传统的供应商-客户关系,而是一种深度耦合的共生结构:每家公司既是对方的投资者,又是对方的客户,还是对方的潜在竞争者。Trainium 3的成功,某种程度上不是靠产品与技术赢得市场竞争,而是靠资本纽带锁定了最关键的客户。

Microsoft的Maia 200是其第二代自研ASIC,基于台积电N3P工艺,包含1400亿晶体管,配备216GB HBM3。这颗芯片将用于推理,优化了FP8和FP4性能,分别可提供超过5和10 petaFLOPS的算力。Microsoft不仅将其用于自家模型,还将用来运行OpenAI的相关模型。

meta的MTIA(meta训练与推理加速器)已进入第三代迭代,采用了台积电N3P工艺,预计超过1000亿晶体管,并首次从前两代的LPDDR5X升级到HBM内存,这一变化本身就说明meta对自研芯片的性能预期在大幅提升。MTIA v3不会是争夺AGI的芯片,但meta对自己的内部工作负载了如指掌:不只是AI聊天机器人,更是驱动Facebook、Instagram和Threads推荐算法的核心推理模型。用自研芯片处理这些工作负载能提供更好的利润率,同时释放外购的Nvidia和AMD GPU用于前沿模型训练。扎克伯格(Mark Zuckerberg)的大手笔采购涵盖了Nvidia GPU、AMD GPU甚至Google TPU,但长远来看,MTIA承担的推理份额只会越来越大。

OpenAI在2025年初完成了其首款自研芯片的设计,由前Google自研芯片项目负责人Richard Ho领导的40人团队操刀,采用台积电3nm工艺制造,目标2026年量产。这颗芯片最初将用于推理任务。考虑到OpenAI同时参与了5000亿美元的“星门”(Stargate)基础设施项目,自研芯片的战略意图已昭然若揭。

最大胆的举动来自Tesla。2026年3月19日—就在本文撰写的前一天—马斯克(Elon Musk)宣布Tesla的Terafab项目将在7天内启动。这是一个垂直整合的半导体制造工厂,集逻辑处理、内存和先进封装于一体。据Tesla披露的目标,初期产能为每月10万片晶圆,年产1000至2000亿颗AI和内存芯片,预计投资约200亿美元。Terafab的目的是为Tesla的全自动驾驶系统、Robotaxi车队、Optimus人形机器人和Dojo超级计算机提供自主可控的AI芯片供应。如果这一计划付诸实施,它将是AI时代最大胆的垂直整合尝试之一。

从训练到推理:行业重心的历史性转移

在所有技术趋势中,最深刻的或许是整个行业从AI训练向AI推理的重心转移。

Google Ironwood TPU专为推理设计。Nvidia引入Groq技术正是为了获得专用推理芯片。Microsoft的Maia 200优化了推理性能。高通的AI200 ASIC选择了LPDDR5X而非HBM,瞄准的也是推理市场。越来越多的迹象表明:训练一个大模型可能只需要做一次,但推理—每当用户向ChatGPT提出一个问题、每当AI Agent执行一个任务—需要持续不断地消耗算力。

这一转变正在重塑芯片设计的优先级。推理芯片更强调能效(每瓦每Token的性能)、低延迟、大内存带宽和确定性执行,而这些恰恰是传统GPU并非最优的领域。ASIC(如TPU、Trainium、Groq LPU)和专用推理加速器的崛起,正在蚕食GPU在AI领域的垄断地位。

德勤的分析也印证了这一点:AI数据中心工作负载预计在2026年至2030年间每年增长3到4倍。随着AI Agent、实时推理和端侧AI的爆发,推理算力需求的增速将远超训练。

暗流涌动:繁荣背后的风险

在这场AI芯片的盛宴中,几个潜在风险值得警惕。

能源瓶颈。高盛估计,到2027年AI数据中心将需要额外92GW的电力。用于发电的燃气轮机订单已排到2030年以后,数据中心审批可能因消费者电价上涨风险而受阻。能源正在取代芯片本身,成为AI扩张的最大瓶颈。

内存危机。AI对HBM3、HBM4和DDR7内存的需求导致消费级内存(DDR4、DDR5)严重短缺。据Counterpoint统计,2025年第四季度内存均价飙涨50%,部分分析师认为这种紧缺可能持续十年。这不仅影响PC和智能手机市场,也在推高AI系统本身的成本。

投资回报的不确定性。大多数数据中心建设方并不指望第一年就收回投资,但如果AI变现的速度和规模不及预期,项目可能被取消或推迟,对芯片销售造成冲击。德勤提醒,2026年的订单基本锁定,但2027和2028年可能出现急剧分化。

地缘政治的持续扰动。出口管制、关税、技术主权争夺正在重塑全球半导体供应链。2025年12月,美国政府批准Nvidia向部分获准的中国客户出售H200芯片,但条件是25%的芯片销售份额。各国纷纷加速建设本土芯片制造能力,但先进封装和测试领域的人才短缺—尤其在美国和欧洲—可能成为持久性的障碍。

展望2026下半年:确定趋势与开放问题

站在2026年3月的时间节点上,有几个趋势已经相当明确:

第一,Nvidia仍将主导,但其份额将继续被稀释。Nvidia控制着AI芯片市场90%以上的份额,但Google TPU的外部化、AMD MI455X的正面竞争、以及各大科技巨头的自研芯片,正在多个维度侵蚀这一优势。正如Forrester分析师所言,Nvidia戴着"金手铐":它是AI的代名词,但也被迫不断推出最先进的高利润产品,而放弃利润率较低的市场,而这恰恰给了竞争者成长空间。

第二,推理芯片将成为增长最快的细分市场。从Nvidia引入Groq技术到Google开放Ironwood,从Microsoft优化Maia到AWS规模化Trainium,行业共识已经形成:推理是下一个主战场。

第三,垂直整合将加速,资本纽带将取代市场竞争成为客户锁定的核心手段。Tesla建晶圆厂只是最极端的案例。Amazon投资Anthropic、Microsoft投资OpenAI、Google同时向两家提供TPU算力,"循环融资"正在成为AI芯片行业的新常态。谁能用资本绑定最关键的AI模型公司,谁的芯片就能获得最有价值的市场验证。

第四,系统级性能将取代单芯片性能成为核心竞争力。Chiplet架构、HBM-on-Logic集成、光学互连(CPO/LPO)、软件定义网络,这些系统级创新的重要性正在超越芯片本身的工艺节点。AI数据中心的竞争,越来越像是"系统的战争"而非"芯片的战争"。

还有几个开放性问题将在未来数月内揭晓答案:

Google的TPU v8能否如期到来并补齐训练短板?如果成功,AI芯片行业可能从Nvidia一家独大走向双极格局,但CUDA生态的护城河仍是最大变数。

Intel的Jaguar ShoresGPU能否在2026年内问世?这颗基于Intel 18A工艺、包含1750亿晶体管、配备288GB HBM4的芯片,纸面规格颇具竞争力,但正如业内人士的评价:"纸面是要有耐心的。"经历了多次AI GPU的失败尝试后,Intel不仅要证明自己能造出芯片并量产,还要拿出过硬的软件支持。一个健康的AI芯片市场需要第三个GPU玩家。

Cerebras的WSE-4何时发布?WSE-3的44GB SRAM在2026年已显不足,整片晶圆规模的芯片概念要延续生命力,内存扩展是当务之急。

Tesla的Terafab是又一个马斯克式的宏大愿景,还是能真正改变半导体制造格局的颠覆性项目?

当AI芯片收入占据半导体行业的半壁江山,一旦AI投资周期出现回调,整个产业链将如何应对?

结语

AI芯片行业在过去一年经历了一次急剧的加速。Nvidia仍然是这场竞赛中当之无愧的领跑者,但赛道上的选手从未如此之多、如此之强。专用推理芯片快速崛起,超大规模云厂商纷纷投入自研硅片,Chiplet架构趋于成熟,光学互连开始落地。而在技术竞争之上,资本纽带正在重新定义谁是谁的客户、谁是谁的对手。

在9750亿美元的半导体市场数字背后,是一个行业正在经历的根本性转型:通用计算让位于专用智能,单一供应商主导走向多元生态共存,峰值算力竞赛转变为全系统能效优化。2026年下半年,当Vera Rubin、MI455X、Trainium 3和各家自研芯片陆续进入规模部署,当Google的TPU v8是否亮相揭晓,我们将看到这场变革的第一批真正的答案。

这不仅仅是一场芯片的战争,更是一场关于AI基础设施未来形态的根本性辩论。而2026年,正是这场辩论从纸面走向现实的最关键的一年。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。