当前位置: 首页 » 资讯 » 新科技 » 正文

21观公司|中科曙光高管剧透:国产网络与英伟达关键指标掰手腕

IP属地 中国·北京 21世纪经济报道 时间:2026-03-13 18:20:50

21世纪经济报道记者雷晨

当全球算力竞赛步入“万卡级”甚至“十万卡级”时代,大模型训练的效率瓶颈正悄然从芯片算力转向网络互联。

3月12日,中科曙光在郑州正式发布全栈自研的400G无损高速网络产品scaleFabric,成为国内首个在高端RDMA领域实现技术突破的厂商。从底层112G SerDes IP到上层管理软件,该系统均为100%自研产品,端到端时延低至0.9微秒,单子网互连规模达传统InfiniBand的2.33倍,理论最大支持11.4万卡集群部署。

更具说服力的是,这套国产网络已在国家超算互联网位于郑州的核心节点稳定运行超10个月,支撑起3万卡规模的智算集群,承载真实大模型训练任务。

中科曙光高级副总裁李斌在会后对21世纪经济报道等媒体表示:“从万卡到十万卡,最核心的技术突破不在计算节点,而在互联系统。”

这标志着,中国在智算基础设施的关键一环——高速网络领域,已从“跟跑”走向“并跑”,并试图以开放生态解构英伟达的封闭生态。

大模型训练对算力的需求早已不是秘密,但一个容易被忽视的事实是:当集群规模从千卡扩展到万卡甚至十万卡,计算节点之间的通信效率,正成为决定整体算力利用率的关键变量。

李斌给记者算了一笔账:传统CPU计算节点,一台机器配一张网卡即可;如今以GPU为中心的计算节点,一台机器需要配置八张甚至更多网卡。“相比原来的数据中心高速网络用量,基本提升了10到20倍。”

这还只是端口数量的增长。更棘手的问题在于,上万张卡需要在同一时间高度协同工作,任何一次网络抖动、拥塞或丢包,都可能导致成百上千张卡进入等待状态。用李斌的话说:“真正让十万卡实现高效协同,能稳定运行一两个小时,技术挑战非常大。”

中科曙光此次发布的scaleFabric,核心技术指标为:端到端通信时延低至0.9微秒,链路故障恢复时间小于1毫秒,单子网互连规模达到传统 InfiniBand(IB)的2.33倍,理论可支持最大11.4万卡集群部署。

中科曙光高速网络互联产品部总工程师万伟指出,“0.9微秒的时延达到网卡性能上限”,跟英伟达CX7处于同一水平。交换机方面,单端口带宽达800Gbps,整机交换容量可达双向 64Tbps。

这些数字的意义在于,至少在纸面参数上,国产高速网络首次站到与英伟达NDR同台竞技的位置。

但参数归参数,真正的考验在落地。

据李斌透露,该产品已在位于郑州的国家超算互联网核心节点部署超10个月,支撑三套万卡级集群上线运行,总规模达3万卡。

这意味着,这套国产网络系统已在真实的大规模并行训练任务中经受住考验。对任何一款硬件产品而言,能够在真实生产环境中以近万卡规模持续稳定运行超10个月,本身就是比实验室测试更具说服力的验证。

北京科技大学计算机与通信学院储根深参与了相关应用研究。他从用户角度给出另一维度观察:传统超算应用中,大量时间消耗在通信环节。硬件补齐通信性能后,应用软件对计算资源的利用率可从60%-70%提升至80%、90%。

“这个优势会很大。”储根深说。

这背后是产业逻辑的转变。过去大家更关注单卡算力,如今系统协同效率正成为新的竞争焦点,而网络,恰恰是决定协同效率的核心环节。

李斌直言:“我们说的万卡也好,十万卡也好,其实都要求模型训练高度协同。规模扩到这么大,可靠性需要每一环都做到极致,而网络可靠性是未来的重点。”

技术指标追上来只是第一步。在这个市场,真正的壁垒并非硬件参数,而是生态。

英伟达InfiniBand的统治地位,既来自技术积累,也来自其从芯片到通信库的完整闭环生态。储根深坦言,英伟达包括IB在内的生态与应用“都已经做得很成熟”,曙光要在这一领域突围,生态建设“需要大环境和重点单位支持”。

李斌并不回避这一问题,在采访中用大量篇幅阐释对生态的理解。

首先是对InfiniBand的定位。“从某种意义上说,英伟达体系内构建了自身闭环生态。”但李斌同时指出“它有自己的协议、标准组织,某种意义上也是开放的”。

中科曙光的策略,是在继承InfiniBand开放性的基础上,打破其在英伟达体系内的商业绑定。

“早期高速网络中,InfiniBand为什么能崛起?相对开放,支撑整个社区开源体系构建封闭式并行通信库,这也是开放的体现。”李斌表示,“我们会继承InfiniBand开放的部分,也会沿着这一思路推进。同时,我们希望打开它在英伟达封闭体系中的壁垒。”

换言之,技术协议层面的开放标准,中科曙光会兼容与继承;而商业层面的软硬件捆绑,中科曙光试图以更开放的姿态进行解构。

具体如何推进?中科曙光信息产业(北京)有限公司副总裁李柳给出三条路径:第一,在光合组织下成立工作组,联合国内合作伙伴建立相关标准;第二,打造生态适配系统,让更多用户使用,通过反馈打磨产品;第三,联合国内科研力量,完善产学研用体系。

李斌则更强调适配广度。“我们这套系统,对英伟达常规产品,网络接口采用标准接口,可与不同计算芯片实现互联。” 他透露,未来还将探索更高效的方式,例如计算芯片通过专有协同技术对接网卡,同时在生态体系内推动芯片互联协议共享。

中科曙光这套打法的核心逻辑是:在英伟达一家独大的市场格局下,以足够开放、可适配所有国产算力芯片的网络方案,争取希望摆脱单一厂商绑定的客户。

一个绕不开的问题是:这个市场到底有多大?

李斌判断:“市场容量和空间十分巨大。”依据很直观:端口用量在快速放大。高速网络市场规模与端口数量直接相关,从CPU时代单台一张网卡,到GPU时代八张甚至更多,这一乘数效应让市场规模提升10到20倍。

当前市场主流玩家仍是英伟达,主要分为两条路线:一是InfiniBand,网卡和交换机基本被英伟达垄断;二是RoCE,交换机厂商可参与交换机环节,但网卡端英伟达依旧强势。

中科曙光的产品定位,瞄准IB技术路线的国产化替代。“期待在IB技术路线上实现技术国产化替代,包括真正实现市场占比替代。”李斌说。

但他同时强调,“我们总体思路是,不搞一家独大,推动技术开放,让市场蛋糕大家共享。”

从客户类型看,目前对scaleFabric兴趣最高的主要有两类:一是科学工程计算;二是人工智能训练与推理。李斌透露,落地机会非常多。

不过,对于具体客户名单与落地规模,李斌态度谨慎。“我觉得再过几个月,你再问这个问题,我能透露更多。” 背后原因在于,过去三个月,团队一方面在真实超大规模系统上持续打磨产品,另一方面也在筹备产能,为规模化落地做准备。

这是较为务实的表态。对高端硬件产品而言,从发布到大规模交付,中间隔着工程化、供应链、稳定性等一系列门槛。能在郑州万卡集群稳定运行10个月,说明已迈过最难的关卡;但要真正全面铺开,仍需时间。

从政策层面来看,“十五五” 规划明确提出构建一体化全国算力网。在李斌看来,这一目标正稳步推进,不同背景的单位依托各自优势切入。运营商负责网络基础设施建设,中科曙光则更聚焦用户接口与上层服务。

他以超算互联网为例:过去科学家使用超算,需自行通过专业软件提交任务、分析结果;如今接入AI智能体与大模型后,科学家只需告知系统需要解决的问题,智能体即可拆解任务、自动调用算力资源,最终甚至能协助完成论文总结。

“未来的算力网会更贴近真实用户。”李斌说,“用户需要的不是冷冰冰的算力,而是一套能解决实际问题的系统。”

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。