本文时代财经 作者:郭美婷
当单点算力不足,集合在一起可以解决问题吗?近日,在WAIC 2025上,多家国产算力企业纷纷交出了“超节点”方案。
“超节点”是英伟达最先提出的概念,用于描述一种纵向扩展(Scale-Up)的GPU集群形态。据中科院物理所介绍,超节点的英文名叫SuperPod,它是Scale Up的当前最优解,通过内部高速总线互连,能够有效支撑并行计算任务,加速GPU之间的参数交换和数据同步,缩短大模型的训练周期。
壁仞科技OCS超节点项目相关负责人董朝锋向时代财经解释,简单来说,传统AI 服务器节点一般为单机8卡,这是一个标准节点,而超节点的规模没有固定限制。但如果只是简单将机器叠加组合在一起,并非真正意义上的超节点。超节点是在传统节点基础上,在保证节点内通信带宽和延迟性能一致的前提下进行扩展。因此,超节点是一种应对大算力集群芯片协同问题的方案。通过整合算力芯片资源,在一个超节点内构建低延迟、高带宽的算力实体,让单个超节点尽可能大地释放算力。
早在4月10日,华为云于芜湖生态大会上发布CloudMatrix 384超节点。5月,华为又于鲲鹏昇腾开发者大会上推出了昇腾超节点,成功实现业界最大规模的384卡高速总线互联。在此次WAIC的华为展区内,昇腾384超节点首次在线下展出。时代财经观察到,该超节点由多列服务器机柜组成,左右两边各分为两个部分的计算柜,中间为总机柜。
图源:时代财经摄
据华为方面介绍,昇腾384超节点即Atlas 900 A3 SuperPoD,该产品基于超节点架构,通过总线技术实现384个NPU之间的大带宽低时延互联,解决集群内计算、存储等各资源之间的通信瓶颈。通过系统工程的优化,实现资源的高效调度,让超节点像一台计算机一样工作。
从今年4月10日至7月31日,东方财富华为昇腾指数涨超30%。7月31日当天,华为昇腾指数成分股直真科技(003007.SZ)、彩讯科技(300634.SZ)、云天励飞-U(688343.SH)涨超3%,高德红外(002414.SZ)涨超2%。
据中国银河证券研报,华为昇腾384超节点基于总线技术实现384个NPU之间的低时延互联,解决了集群内部计算、存储等各资源之前通信的瓶颈问题,具备三大优势:超大带宽、超低时延、超强性能。在性能上,华为昇腾384超节点已可以对标英伟达 GB200NVL72。根据SemiAnalysis数据,在系统能效方面,华为单个超节点的性能是英伟达GB200NVL72的4倍,算力能效比是英伟达的2.3倍,带宽能效比为1.8倍。
目前,全球首个商用智算昇腾超节点由中国电信上线,现已在广东韶关落地。
无独有偶,上海仪电联合曦智科技、壁仞科技、中兴通讯,也正式发布国内首个光互连光交换GPU超节点——光跃LightSphere X。
据了解,光跃LightSphere X基于曦智科技分布式光交换技术,采用硅光技术的光互连光交换(OCS)芯片和壁仞科技的大算力通用GPU液冷模组与全新载板互连,并搭载中兴通讯的AI国产服务器及仪电智算云平台软件,并即将于上海仪电智算中心落地。
董朝锋表示,光跃LightSphere X具有灵活动态可配置的特点: 它最小可支持8卡,还能扩展至16卡、32卡、甚至数千卡。通过曦智科技全光交换ocs模块,该方案可以按照不同类型大模型的特征动态配置最优的拓扑。例如,若要运行70B规模的dense模型,通过软件将拓扑配置为HCM模式,就能充分发挥其算力性能优势;若运行类似于deepseek R1 满血版的MOE模型只需通过软件将拓扑配置为 EP32/EP64,即可获得最优的训练/推理性能。
“当前各家都在布局超节点领域,呈现百花齐放的态势。”董朝锋介绍,在成本与价格方面,LightSphere X与普通单机方案额外增加的光模块成本较低。因此,与未配备OCS的超节点相比,我们的集群方案性价比有显著提升,且能从8卡、32卡灵活扩展至数千卡,没有限制。
董朝锋谈到,目前行业关于超节点的需求较多,这一趋势的形成主要基于单卡算力存在限制,同时也受到外部地缘因素的影响,此外行业发展确实需要开箱即用的一体机/超节点方案提供给终端用户。
不过,多位受访对象告诉时代财经,目前关于超节点尚未形成公认的行业标准。在华为展位上,相关负责人表示华为正在联合相关部门制定这一标准。董朝锋也表示,未来几年超节点可能会逐步确立标准,包括底层协议(如类似 UCIE 协议)及上层硬件连接协议等,壁仞科技也在与相关组织推进这一标准的制定。
尽管仍处于发展初期,超节点仍有望加速国产算力的渗透。申万宏源认为,超节点产业化将重塑算力产业链分工、催生服务器整合,光通信增量及液冷渗透提升等投资机会。一方面,芯片厂商纵向整合趋势明显,英伟达、AMD 通过并购强化通信与软件能力,海光信息拟吸收合并中科曙光强化软件、液冷等能力。另一方面,在代工环节、光通信领域,华为CloudMatrix推动光模块需求,光模块与GPU需求比可达1:18。同时,在IDC产业链中,单机柜功率超120kW推动液冷渗透率提升,模块化布局加速智算中心交付。