当前位置: 首页 » 资讯 » 新科技 » 正文

国产超节点扎堆发布背后

IP属地 中国·北京 经济观察报 时间:2025-11-15 00:08:03


经济观察报记者 郑晨烨

2025年下半以来年,AI算力市场的“功夫”热词,莫过于超节点(SuperNode/SuperPod)。

7月,在世界人工智能大会(WAIC)上,华为、中兴通讯(000063.SZ)和超聚变数字技术有限公司各自展示了超节点方案;7月27日,紫光股份(000938.SZ)子公司新华三发布了H3C Uni-PoD系列超节点;8月,浪潮信息(000977.SZ)推出了元脑SD200超节点;8月28日,百度发布了昆仑芯超节点;9月18日,华为在全联接大会上发布了Atlas 950/960超节点;阿里巴巴也在当月的云栖大会上亮出了磐久128超节点;11月6日,中科曙光(603019.SH)在乌镇发布了号称“全球首个单机柜级640卡”的scaleX640;11月13日,百度在北京又拿出了天池256/512超节点。

各家发布的参数一个比一个“猛”,比如在2025年中国国际大数据产业博览会上,华为数字政府系统部CTO马华民表示,华为384超节点服务器的集群算力是英伟达同类设备的1.67倍。

超节点这个听起来技术门槛很高的产品,到底是什么,又为何一夜之间成为国内厂商的标配?

起底超节点

在行业内,超节点这个词时常被混用。

目前,业内对超节点至少有两种层级的划分,一是指在单机柜内部实现高速互联,有厂商称之为“SuperNode”;一种指由跨机柜组成的集群级互联,英伟达最早提出的“SuperPod”就属于这一类。

厂商扎堆发布超节点,与当前AI大模型面临的瓶颈有关。

运行训练参数超过万亿级别的AI大模型,一张芯片装不下、也算不动,唯一的办法是把活儿拆开,大家一起干,这在行业里叫“并行计算”。记者采访业内人士了解到,在超高参数级别的大模型训练中,计算单元约40%的时间都在“空等”通信,芯片们不是在“计算”,而是在“排队等消息”。这个瓶颈被业内称为“通信墙”。

为了拆掉这堵墙,超节点应运而生。

目前,行业主要有两种构建大规模GPU(图形处理器)集群的方式:Scale-Out(横向扩展)和Scale-Up(纵向扩展)。其中,Scale-Out是传统办法,简单来说就是把多台独立的服务器用网线连起来,组成拥有上百台,乃至上千台机器的集群。Scale-Up则是增加单个节点内的资源数量。节点指系统中一个独立的计算单元。在AI训练中,一块GPU或一整台训练服务器都可以称为一个节点。

超节点就是把几十张乃至上百张卡放进一台大机柜,用内部的“高速路”连接起来,让它们像一块超级芯片一样工作。

在超节点的设计中,Scale-Up通过单机柜内集成更多芯片来提升性能,Scale-Out则通过跨机柜互联实现更大规模的集群。

因此,各家厂商在发布超节点产品时所标注的数字,如“384”“640”“512”等,通常指该超节点单机柜或单系统内集成的AI训练芯片(如GPU、NPU等)数量。例如,华为昇腾384超节点就表示在一个超节点单元中集成了384颗昇腾AI芯片。中科曙光scaleX640意味着单个标准机柜内可部署640张AI计算卡。

该数字也成为衡量超节点规模与算力密度的核心指标,能直观反映相关厂商在系统集成和高速互连能力上的工程水平。

对于英伟达而言,Scale-Up和Scale-Out解决的问题不一样。AI训练中有多种“并行计算”方式。其中,PP(流水线并行)和DP(数据并行)的通信量相对较小,可以用Scale-Out的模式处理。但TP(张量并行)和EP(专家并行)的通信量极大,必须通过Scale-Up的方式解决。此外,两者的性能差距非常大,Scale-Out网络的通信时延通常在10微秒左右,而Scale-Up网络(如英伟达的NVlink)的目标是要做到百纳秒级别。

“通信墙”问题之所以在2025年变得如此尖锐,与AI应用本身的变化也有关系。比如,华南一家芯片企业的工程师王先生告诉记者,现在行业对于AI的需求正从“一个模型回答一个问题”,转向需要多个模型协同工作的智能体,即AI Agent;但“智能体”在执行一个复杂任务时,可能需要同时调用代码模型、逻辑模型和知识模型,并让它们进行实时交互。

这种多模型实时交互的模式,让Token(数据量)的生成规模远超传统方式。这种高频、海量的通信需求,也让Scale-Out网络“10微秒”的通信时延,累积成了性能瓶颈。厂商们必须转向Scale-Up。

如果说英伟达选择超节点是为了追求更极致的性能,国内厂商集体选择这条路,更多是被现实倒逼的选择。

11月12日,野村中国科技及电讯行业分析师段冰在接受经济观察报采访时认为,目前国内单芯片的算力有一定短板,因此需要通过构建多卡的超节点模式获得整体上算力的供应。

中科曙光总裁助理、智能计算产品事业部总经理杜夏威对记者说:“在单点芯片层面上,我们还是不能够实现超越的。”

单卡追不上的现实迫使相关厂商在系统上寻找优势,超节点成为了破局的关键。“既然单点有差距,(我们)就需要在系统级上有优势。”杜夏威说。

对标

英伟达是超节点概念最早的提出者。当国内厂商集体涌入这条赛道时,对标英伟达甚至是超越英伟达,往往就会成为发布会的主题。

在9月18日的全联接大会上,华为副董事长、轮值董事长徐直军公开了华为的AI算力版图,并宣布华为将于2026年四季度上市的Atlas950超节点(支持8192卡),将“在各项主要能力上都远超业界主要产品”。

徐直军还给出了对比数据:相比英伟达同样将在明年下半年上市的NVL144,Atlas950超节点卡的规模是其56.8倍,总算力是其6.7倍,内存容量是其15倍,互联带宽是其62倍。

其他厂商也在参数上“寸土不让”。英伟达在售的旗舰产品 GB200NVL72,是将72个GPU(图形处理器)集成到一个液冷机柜中。国内厂商们也纷纷在“单柜集成度”上发起猛攻。

11月6日,中科曙光在乌镇世界互联网大会上发布的scaleX640超节点,宣称是“全球首个单机柜级640卡”集成的产品。

将640张高功率芯片放进一个标准机柜,这在工程上要先解决三个“硬骨头”。

“一是要有非常先进的冷却技术;二是要有非常先进的供电技术;三是要有比较好的硬件架构,能把这么多卡连起来。”杜夏威称,通过这些系统工程创新,scaleX640实现了“单机柜640卡超高速总线互连”,与业界同类产品相比,单机柜算力密度提升了20倍。

在当前国产AI芯片单卡算力、软件生态尚难与英伟达H100/B100正面硬刚的情况下,“堆量”成为国内厂商相对务实的突围策略:即用更高的集成密度,把更多计算单元放进同一个高速通信域里,从而在整体训练效率和单位算力成本上扳回一城。

此外,AI训练需要芯片间的高频通信。在超节点内部互联层面,行业内也出现了不同的技术路径,一是以英伟达NVL72为代表的高速铜缆(电互联)方案;二是以华为昇腾为代表的“去铜全光”(光互联)方案。

杜夏威说,这是目前行业的主流思路,“柜体内用铜和电,柜间用光”。对于此中原因,杜夏威解释称,光模块的“功耗、可靠性、成本都是没有完全解决的问题”,铜互联(电互联)虽然可靠且成本低,但在传输距离上有限制,高速铜互联的有效距离仅在1米左右。

国产厂商们的思路也因此变得清晰:尽可能在1米左右的铜互联范围内塞进更多计算卡。谁塞的卡越多(集成度越高),谁就能用更多的“铜”替代昂贵的“光”,从而在系统总成本和通信效率上获得杜夏威口中的“竞争优势”。

但堆量并非没有代价。

第一个代价就是功耗和散热。把几百张高功率芯片塞进一个机柜,产生的热量是惊人的。比如,英伟达的GB200NVL72,单柜72卡的功耗就已达到120千瓦(kW)。这使得“液冷”成为必需品,即将芯片等发热部件直接泡在特殊液体里,依靠液体沸腾蒸发带走热量,达到散热目的。

第二个代价是互连本身的工程复杂度。公开信息显示,英伟达的GB200NVL72机柜,为了连接72张卡,内部需要铺设5000多条、总长度接近3200米的独立铜缆。当集成度从72卡提升到128卡、384卡乃至640卡,其内部走线和连接的复杂度可想而知。

另外,在核心的“互联协议”,即芯片间“对话的语言”上,国内厂商也分化出了不同路径。如英伟达的“护城河”就是其私有的NVlink协议。

华为选择自研垂直一体的灵衢(U-nifiedBus)互联协议。徐直军称其目标是“万卡超节点,一台计算机”。灵衢试图做到“统一通信协议与内存编址”,让系统内所有CPU(中央处理器)和NPU(神经网络处理单元)能“听懂彼此的话”,实现全局资源池化。在9月18日的大会上,徐直军宣布将开放灵衢2.0技术规范,目的在于让其他厂商能基于此开发产品,共建灵衢的开放生态。

阿里、新华三等则选择了开放兼容。比如阿里的磐久AL128采用非以太的Alink协议,并支持UAlink(加速卡超级互联联盟)国际开放标准;新华三也公开表示正积极参与UAlink和UEC(超以太联盟)等国际组织的标准建设。

挑战

除了代价,堆量也不能解决所有问题。

段冰认为,对于当前的超节点而言,硬件层面的功耗、通信效率等问题都是客观存在的,但这些硬件和工程层面的问题“不会是非常大的瓶颈”,随着经验的积累,国内厂商结合之前网络技术方面的优势,可以补上来。

真正的挑战在其它方面,比如软件生态和底层算力交互的软件。段冰认为这些短板可能需要花更多时间才能补足。

软件生态是国产算力厂商们面临的共同挑战,厂商自己对此也有清醒认知。

杜夏威表示,用户在选择方案时,首先会考虑这个应用能不能有效落地,能不能跑起来?这里的关键就在于有没有很好的软件生态。他认为硬件参数只是基础,最终效果在于用户能用得起来,而不仅仅是停留在噱头层面。

硬件参数比拼激烈,软件生态短板明显,谁在为这些动辄数百卡、售价高昂的超节点买单?

在TrendForce集邦咨询资深分析师龚明德看来,从全球AI服务器的需求看,未来两到三年,主导角色还是大型互联网企业,因为这些企业有客户基础,以及拥有较完整多元的服务形态。

龚明德认为另一个采购主力将是国家主导的主权云服务,这类算力中心的目的在于“提供本地化中小企业租赁服务或发展AI使用”。

大型互联网企业和主权云构成了需求的主力,但其中也存在变数:头部互联网企业虽有技术能力消化高端算力,但其资本开支正在趋于理性;主权云虽有政策驱动,却容易陷入“为建而建”的陷阱。

在工信部信息通信经济专家委员会委员盘和林看来,国内AI算力的热度与海外基本同步,并未脱离全球趋势,“随着海外算力出现泡沫,国内当然也会有一些泡沫,但这是全球趋势,并非人为因素”。

盘和林担心的是算力建设的“一厢情愿”。他认为建设算力中心应该是企业和市场决定的事,“政府和国企要避免‘一厢情愿’,比如在不需要算力的地方强行推进算力产业发展”,云计算厂商最懂得在哪些区域建设算力最经济。

这种“一厢情愿”的风险还与AI应用的实际落地情况有关。盘和林说,目前AI算力最大的场景是AIGC(生成式AI),“现阶段落地较快,场景很丰富”,但在其它被寄予厚望的领域,如“AI+”领域的智能制造,“对算力的预期和实际之间有落差”。“AIGC会是一种选择,但不会是唯一方案,关键还是要看具体的需求场景。”盘和林说,算力的价值最终将由真实业务来定义,而非相反。

对于AIGC之外更大规模应用场景的爆发,段冰的态度比较乐观。他认为,真正具备长期潜力的方向是机器人、高阶自动驾驶等与先进制造深度绑定的领域,“这些场景一旦跑通,对算力的需求将是持续且刚性的”。

至于金融、医疗等行业,虽然已有不少试点项目,但段冰觉得这些行业目前仍处于“从单点验证走向规模化复制”的早期阶段。

这意味着国产厂商眼下这场围绕超节点的突围战,除了要解决硬件代差、软件生态等短板,还要耐心等待、甚至主动培育尚未完全到来的大场景需求。

(作者 郑晨烨)

免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。


郑晨烨

深圳采访部记者 关注新能源、半导体、智能汽车等新产业领域,有线索欢迎联系:zhengchenye@eeo.com.cn,微信:zcy096x。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新