当前位置: 首页 » 资讯 » 新科技 » 正文

黄仁勋宣告推理时代来临,LPU将带来什么新变量?

IP属地 中国·北京 21世纪经济报道 时间:2026-03-18 14:16:03

21世纪经济报道记者 孙燕 邓浩

当地时间3月16日,英伟达CEO黄仁勋在GTC大会上发布了一款为智能体AI打造的全新计算平台——NVIDIA Vera Rubin。

这个平台就像一套超级“计算装备”,集齐了多种核心组件,包括Vera CPU(中央处理器)、Rubin GPU(图形处理器)、NVlink 6交换机、ConnectX-9 SuperNIC(超级网卡)、BlueField-4 DPU(数据处理器),以及Spectrum-6(以太网交换机)和新增的Groq 3 LPU(语言处理单元)。

简单来说,这是一整套专为AI打造的硬件组合,让计算更快、更聪明。

其中,英伟达还推出了专为大规模部署设计的Groq 3 LPX机架。这意味着它可以把几百个LPU组合起来,像一个“超级大脑”一样协同工作,实现极快的推理速度和海量文本处理能力。这个机架搭载了256个LPU,配备128GB片上高速存储,传输速度高达640 TB/s。

在业内人士看来,这次发布的亮点不仅是芯片升级,更在于系统集成密度的飞跃。云岫资本AI/智能制造组董事庄昌磊在接受21世纪经济报道记者采访时表示,“最大的变化是英伟达将LPU从单一的芯片或加速卡,正式提升为与GPU并列的一级机架系统。”

尤其是LPX机架的LPU数量从第一代的64颗一口气提升到256颗,这种密度跃升远超行业预期,也反映出市场对超低延迟、长文本推理的迫切需求。

庄昌磊判断,这标志着AI计算正从“训练为主”,全面转向“训练+推理并重”,而推理正在成为新的系统级基础设施。

核心为了推理

LPU是专为顺序处理的计算密集型任务设计新型芯片架构,其核心目标是通过架构创新优化语言模型的推理效率。

架构方面,单颗Groq 3 LPU集成了500 MB的SRAM:LPU的核心元素之一是MEM块,这是一种扁平、SRAM优先的内存架构,其中500 MB的高速片内SRAM作为推理的主要工作存储。

编译器和运行时将活动工作集(包括权重、激活和KV状态)放入片上内存并显式移动数据,而不是依赖于硬件管理的缓存。这减少了不可预测的延迟,并通过将对延迟最敏感的数据放在靠近计算的位置来帮助提供低而稳定的延迟。

庄昌磊告诉记者,Groq LPU的核心优势不仅是快,更是“每次都一样快”的确定性延迟。这种时间确定性(Timing Deterministic)的架构设计,需要对计算流水线、内存访问和编译器进行深度定制,技术门槛极高。

对于工业控制、自动驾驶等对实时性有严苛要求的场景,这种“确定性”是刚需,而通用的GPU架构和云厂商基于简化版指令集设计的ASIC,都很难在保证灵活性的同时,做到如此极致的确定性。

华泰证券研究指出,和1月的CES相比,本次GTC大会上Groq LPU在英伟达整体产品线中的定位开始明确。英伟达计划利用LPU低延迟的特性,来满足Agent AI等交互性要求较高的应用。

庄昌磊同样指出,当硬件的延迟瓶颈被打破,模型设计者将更有信心去探索更实时、更复杂的交互式AI。例如,现在的AI Agent可能还需要几秒钟的思考时间,未来可能真正实现毫秒级的反应。模型将不再是“蹦字”,而是像真人一样流畅、实时地与你对话。

硅光子元年开启

在NVIDIA Groq 3 LPX机架之外,Rubin平台的另一大亮点在于NVIDIA Spectrum-6 SPX以太网机架。

采用光电一体封装(CPO)的Spectrum-X以太网硅光技术,相比传统可插拔收发器,光学能效最高提升5倍,系统可靠性提高10倍。

“Scale-Out(机柜间互联)是当前最明确的增量。”庄昌磊指出,Rubin平台已经开始导入CPO交换机,用于解决数据中心内部大量机柜之间的数据洪流传输问题,预计2027年将成为CPO放量的重要时间节点。

在GTC上,英伟达还透露,继Vera Rubin之后,NVIDIA的下一代重要架构是Feynman,此架构将包含一个新的CPU:NVIDIA Rosa。

其中,Rosa是新平台的核心,该平台将NVIDIA新一代LPU LP40与NVIDIA BlueField-5和CX10相结合,通过NVIDIA Kyber实现铜缆和光电一体封装的纵向扩展,以及NVIDIA Spectrum级光学横向扩展。

“Scale-Up(机柜内部/芯片间)是更前瞻的看点。”庄昌磊指出,在Feynman架构中,英伟达计划引入NVlink 8 CPO,实现“光入机柜”,即用光互连替代部分传统的铜背板连接,直接连接GPU与LPU。这意味着光互联正从最边缘的交换机,逐步走向计算的核心机柜内部。

在庄昌磊看来,光模块作为算力互联的“血管”,其价值量正随着智能体集群规模的扩张而持续提升。随着CPO从实验室走向规模化商用,硅光子元年已经开启,这将直接带动整个通信硬件产业链的升级。

高阶PCB需求或井喷

如前所述,为应对智能体系统低延迟和长上下文的需求,英伟达还推出了Groq 3 LPX推理加速机架,包含256个LPU处理器,与Vera Rubin结合后,每兆瓦推理吞吐量可以提高35倍。

而LPU/LPX以机柜形式出货,对PCB产业将产生颠覆性影响,可能是产业链最大的超预期环节。

PCB,也就是印制电路板,是电子元器件电气相互连接的载体,已渗透到几乎所有电子设备。中国PCB产业作为全球电子制造业的核心引擎,增长强劲。

受益于成本管理、环保标准、产业链配套等优势,当前中国大陆PCB行业产值占全球50%以上,并形成了渤海湾、珠三角、长三角等产业集群。

从上下游来看,随着AI需求暴增,云厂商资本开支持续上修,拉动AI服务器、存储设备、网络设备采购。中信建投测算,2025年GPU+ASIC服务器对应PCB市场空间超400亿,2026年对应市场空间超900亿,增速已经翻倍。

“目前全球AI服务器PCB行业已处于20%的供需缺口状态。”庄昌磊坦言。

在庄昌磊看来,随着LPU/LPX机柜在2026年底至2027年进入量产高峰期,对高阶PCB的需求将呈现井喷态势。“将进一步加剧高阶HDI和高层数PCB的供不应求,推动整个PCB产业链进入新一轮的扩产和升级周期。”

比如,由于LPU/LPX机柜内部需要处理海量的数据吞吐和极低延迟的通信,对PCB的层数、材料和工艺要求极高。以英伟达的LPU机架为例,单块主板的PCB价值量可达6000美元,而一个完整的机架,其PCB总价值量高达9.6万美元(折合近70万元人民币),这较传统AI服务器PCB的价值量提升了超过10倍。

此外,为了匹配224Gbps及以上的高速信号传输,以及支持256颗LPU的高速互联,PCB必须采用更高级的基材和设计。以材料为例,普通基材已无法满足需求,必须升级至M9等级的覆铜板,增强材料也从普通电子玻纤布转向价值是其10倍的Q-glass布。下一代产品甚至已开始测试M10材料。

庄昌磊称,在Rubin Ultra架构中,甚至引入了正交背板方案,通过78层PCB实现GPU与NVSwitch的直接互连,大幅减少铜缆使用,这标志着PCB正在替代部分传统线缆的角色,成为机架内互联的“骨架”。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。