当前位置：首页 » 资讯 » 新科技 » 正文

21观公司｜中科曙光高管剧透：国产网络与英伟达关键指标掰手腕

IP属地中国·北京 21世纪经济报道 时间：2026-03-13 18:20:50

21世纪经济报道记者雷晨
当全球算力竞赛步入“万卡级”甚至“十万卡级”时代，大模型训练的效率瓶颈正悄然从芯片算力转向网络互联。
3月12日，中科曙光在郑州正式发布全栈自研的400G无损高速网络产品scaleFabric，成为国内首个在高端RDMA领域实现技术突破的厂商。从底层112G SerDes IP到上层管理软件，该系统均为100%自研产品，端到端时延低至0.9微秒，单子网互连规模达传统InfiniBand的2.33倍，理论最大支持11.4万卡集群部署。
更具说服力的是，这套国产网络已在国家超算互联网位于郑州的核心节点稳定运行超10个月，支撑起3万卡规模的智算集群，承载真实大模型训练任务。
中科曙光高级副总裁李斌在会后对21世纪经济报道等媒体表示：“从万卡到十万卡，最核心的技术突破不在计算节点，而在互联系统。”
这标志着，中国在智算基础设施的关键一环——高速网络领域，已从“跟跑”走向“并跑”，并试图以开放生态解构英伟达的封闭生态。
大模型训练对算力的需求早已不是秘密，但一个容易被忽视的事实是：当集群规模从千卡扩展到万卡甚至十万卡，计算节点之间的通信效率，正成为决定整体算力利用率的关键变量。
李斌给记者算了一笔账：传统CPU计算节点，一台机器配一张网卡即可；如今以GPU为中心的计算节点，一台机器需要配置八张甚至更多网卡。“相比原来的数据中心高速网络用量，基本提升了10到20倍。”
这还只是端口数量的增长。更棘手的问题在于，上万张卡需要在同一时间高度协同工作，任何一次网络抖动、拥塞或丢包，都可能导致成百上千张卡进入等待状态。用李斌的话说：“真正让十万卡实现高效协同，能稳定运行一两个小时，技术挑战非常大。”
中科曙光此次发布的scaleFabric，核心技术指标为：端到端通信时延低至0.9微秒，链路故障恢复时间小于1毫秒，单子网互连规模达到传统 InfiniBand（IB）的2.33倍，理论可支持最大11.4万卡集群部署。
中科曙光高速网络互联产品部总工程师万伟指出，“0.9微秒的时延达到网卡性能上限”，跟英伟达CX7处于同一水平。交换机方面，单端口带宽达800Gbps，整机交换容量可达双向 64Tbps。
这些数字的意义在于，至少在纸面参数上，国产高速网络首次站到与英伟达NDR同台竞技的位置。
但参数归参数，真正的考验在落地。
据李斌透露，该产品已在位于郑州的国家超算互联网核心节点部署超10个月，支撑三套万卡级集群上线运行，总规模达3万卡。
这意味着，这套国产网络系统已在真实的大规模并行训练任务中经受住考验。对任何一款硬件产品而言，能够在真实生产环境中以近万卡规模持续稳定运行超10个月，本身就是比实验室测试更具说服力的验证。
北京科技大学计算机与通信学院储根深参与了相关应用研究。他从用户角度给出另一维度观察：传统超算应用中，大量时间消耗在通信环节。硬件补齐通信性能后，应用软件对计算资源的利用率可从60%-70%提升至80%、90%。
“这个优势会很大。”储根深说。
这背后是产业逻辑的转变。过去大家更关注单卡算力，如今系统协同效率正成为新的竞争焦点，而网络，恰恰是决定协同效率的核心环节。
李斌直言：“我们说的万卡也好，十万卡也好，其实都要求模型训练高度协同。规模扩到这么大，可靠性需要每一环都做到极致，而网络可靠性是未来的重点。”
技术指标追上来只是第一步。在这个市场，真正的壁垒并非硬件参数，而是生态。
英伟达InfiniBand的统治地位，既来自技术积累，也来自其从芯片到通信库的完整闭环生态。储根深坦言，英伟达包括IB在内的生态与应用“都已经做得很成熟”，曙光要在这一领域突围，生态建设“需要大环境和重点单位支持”。
李斌并不回避这一问题，在采访中用大量篇幅阐释对生态的理解。
首先是对InfiniBand的定位。“从某种意义上说，英伟达体系内构建了自身闭环生态。”但李斌同时指出“它有自己的协议、标准组织，某种意义上也是开放的”。
中科曙光的策略，是在继承InfiniBand开放性的基础上，打破其在英伟达体系内的商业绑定。
“早期高速网络中，InfiniBand为什么能崛起？相对开放，支撑整个社区开源体系构建封闭式并行通信库，这也是开放的体现。”李斌表示，“我们会继承InfiniBand开放的部分，也会沿着这一思路推进。同时，我们希望打开它在英伟达封闭体系中的壁垒。”
换言之，技术协议层面的开放标准，中科曙光会兼容与继承；而商业层面的软硬件捆绑，中科曙光试图以更开放的姿态进行解构。
具体如何推进？中科曙光信息产业（北京）有限公司副总裁李柳给出三条路径：第一，在光合组织下成立工作组，联合国内合作伙伴建立相关标准；第二，打造生态适配系统，让更多用户使用，通过反馈打磨产品；第三，联合国内科研力量，完善产学研用体系。
李斌则更强调适配广度。“我们这套系统，对英伟达常规产品，网络接口采用标准接口，可与不同计算芯片实现互联。” 他透露，未来还将探索更高效的方式，例如计算芯片通过专有协同技术对接网卡，同时在生态体系内推动芯片互联协议共享。
中科曙光这套打法的核心逻辑是：在英伟达一家独大的市场格局下，以足够开放、可适配所有国产算力芯片的网络方案，争取希望摆脱单一厂商绑定的客户。
一个绕不开的问题是：这个市场到底有多大？
李斌判断：“市场容量和空间十分巨大。”依据很直观：端口用量在快速放大。高速网络市场规模与端口数量直接相关，从CPU时代单台一张网卡，到GPU时代八张甚至更多，这一乘数效应让市场规模提升10到20倍。
当前市场主流玩家仍是英伟达，主要分为两条路线：一是InfiniBand，网卡和交换机基本被英伟达垄断；二是RoCE，交换机厂商可参与交换机环节，但网卡端英伟达依旧强势。
中科曙光的产品定位，瞄准IB技术路线的国产化替代。“期待在IB技术路线上实现技术国产化替代，包括真正实现市场占比替代。”李斌说。
但他同时强调，“我们总体思路是，不搞一家独大，推动技术开放，让市场蛋糕大家共享。”
从客户类型看，目前对scaleFabric兴趣最高的主要有两类：一是科学工程计算；二是人工智能训练与推理。李斌透露，落地机会非常多。
不过，对于具体客户名单与落地规模，李斌态度谨慎。“我觉得再过几个月，你再问这个问题，我能透露更多。” 背后原因在于，过去三个月，团队一方面在真实超大规模系统上持续打磨产品，另一方面也在筹备产能，为规模化落地做准备。
这是较为务实的表态。对高端硬件产品而言，从发布到大规模交付，中间隔着工程化、供应链、稳定性等一系列门槛。能在郑州万卡集群稳定运行10个月，说明已迈过最难的关卡；但要真正全面铺开，仍需时间。
从政策层面来看，“十五五” 规划明确提出构建一体化全国算力网。在李斌看来，这一目标正稳步推进，不同背景的单位依托各自优势切入。运营商负责网络基础设施建设，中科曙光则更聚焦用户接口与上层服务。
他以超算互联网为例：过去科学家使用超算，需自行通过专业软件提交任务、分析结果；如今接入AI智能体与大模型后，科学家只需告知系统需要解决的问题，智能体即可拆解任务、自动调用算力资源，最终甚至能协助完成论文总结。
“未来的算力网会更贴近真实用户。”李斌说，“用户需要的不是冷冰冰的算力，而是一套能解决实际问题的系统。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用