当前位置: 首页 » 资讯 » 新科技 » 正文

AI领域也要反“内卷”!对话中科曙光高级副总裁李斌:构建开放算力底座才能实现国产算力集群创新

IP属地 中国·北京 时代周报 时间:2025-12-26 20:23:18

本文时代周报 作者:管越

“高速互联网络技术过去几乎被国际厂商垄断,国内代差较大、落后较多,为了突破技术瓶颈,我们默默研发了3年,初步有成果才拿出来发布。”近日,在光合组织2025人工智能创新大会现场,中科曙光(603019.SH)高级副总裁李斌接受时代周报等媒体采访时如是说。


李斌所言的“成果”,即中科曙光在本届大会上发布并展出的Scale X万卡超集群,这也是国产万卡级AI集群系统首次以真机形式公开亮相。

“当前,这一代产品规格指标、实测性能和稳定性可以对标英伟达当前主力量产产品。”李斌如是说。

技术难题“没有捷径可走”

在超算领域,集群即一组相互独立的、通过高速网络互联的计算机,单个计算机则是“节点”。

“当上万甚至上十万芯片组成一个需要协同和紧密耦合的系统时,任何一个小问题都会被放大到整个系统,从而让系统处于不可用的状态。”谈及超大规模算力集群的研发难点,李斌直言,“难点和挑战还是挺多的”。

他进一步拆解,超大规模集群的技术难点首先集中在互联网络。随着设备规模扩大,计算效率不能出现明显下降,这就要求互联网络必须具备高带宽、低延迟的核心特质,同时还要保障大规模组网后的可管理性。“这个网络不是我们传统用到的以太网,而是需要能够实现原生支持的无损网络,它的研发门槛非常高。”

除了网络,建设超大规模集群还面临能耗与能效问题。当前,超大规模算力中心已达到百兆瓦级体量,“预计未来5年可能出现吉瓦(10亿瓦)级算力中心,如何突破用电与冷却技术瓶颈,保障系统高效稳定运行,是行业共同面临的挑战。”李斌如是说。

协同优化难度则是另一大难关,且需根据应用场景动态调整。“过去服务科学工程计算时,我们会根据计算、存储、网络及应用算法进行优化。而进入人工智能时代,挑战变得更为严峻。”李斌解释,一方面,AI对算力的需求较以往呈指数级增长;另一方面,算力提升速度与数据传输、存储性能提升速度不同步,形成了显著的“性能鸿沟”,导致计算性能无法充分释放。

而上述技术难题,中科曙光是如何攻克的?在李斌看来,中科曙光过去几十年做的事,就是坚持从单点技术打磨做起,将每个细节做到极致,才能保证大规模系统的可靠性,“这件事没有捷径可走。”

据了解,万卡超集群由多个Scale X640超节点(单机柜640卡)、ScaleFabirc高速网络互连而成,总计拥有10240块加速卡,总算力超过5EFlops(500亿亿次每秒);HBM内存总容量超过650TB,总带宽超过18PB/s;片间互连总带宽超过4.5PB/s,柜间互连总带宽超过500TB/s。该集群完全践行了开放架构的理念,硬件层面支持多品牌加速卡,软件层面兼容主流计算生态,目前已完成400+主流大模型、世界模型的适配优化。

“我们不是要做一个封闭的‘算力孤岛’,而是要构建开放的算力底座。”李斌强调,无论是国产芯片还是国际品牌硬件,无论是通用大模型还是行业专用模型,都能在这个集群上实现高效运行。这种兼容性也让开放生态的价值进一步凸显:不同厂商的产品可以基于统一的算力底座协同工作,无需为适配特定硬件而重复投入研发资源。

建设开放生态打破“封闭内卷”

“人工智能产业链很长,大家都在做,但是可能都做得不好,不能满足产业发展需求。”谈及人工智能行业现状时,李斌直言不讳。

他解释,AI产业链涵盖芯片、系统、框架软件到应用等多个环节,唯有各环节深度协同,才能发挥最大价值。但当前行业内不少厂商试图覆盖全链条,最终导致每个环节都难以做到极致,还形成了多个封闭的小生态。

“用户夹在多个生态中间很‘痛苦’,虽然国产化是大趋势,但各家产品体验都不够完善,选择成本极高。”李斌点出的行业痛点,正是中科曙光推动开放生态建设的初衷。“封闭内卷既无法满足国家对产业发展的需求,产业链上的企业也难以找准自身生存定位。”

李斌表示,中科曙光希望通过开放架构,将自身在各环节积累的技术开放出来,让产业链合作伙伴聚焦自身擅长的领域,协同推进产业发展。

为了让开放架构真正落地,中科曙光发起成立了开放架构联合实验室。“原来很多中小企业有细分领域的好想法、算法或数据,但没有资源和平台去落地,因为搭建基础平台的成本太高。” 李斌解释,通过开放架构联合实验室提供的现成技术平台与共享资源,中小企业可以专注于自身擅长的细分领域,不用再投入大量成本搭建基础架构,“能把很多原来敢想但没条件做的事情落地”。

据悉,2025年9月5日,依托国家先进计算产业创新中心,中科曙光与20余家智算上下游企业共同建设了AI计算开放架构联合实验室。

“开放架构联合实验室会下设多个专项工作组,初期将聚焦芯片间互联、底层软件栈的开放共享与标准制定、硬件架构技术、冷却技术、互联网络等关键方向,后续将根据合作进展拓展更多领域。”李斌如是说。

谈及未来,李斌仍保持清醒的认知,尽管scaleX万卡超集群已实现多项技术突破,但与国际领先水平相比仍存在差距。“芯片制程工艺等基础领域的差距客观存在,我们需要持续迭代追赶。”

但他对开放生态的前景充满信心:“人工智能产业的发展从来不是一家企业的独角戏,而是全产业链的协同作战。只有打破封闭壁垒,让每个企业都能在生态中找到自己的位置,国产算力才能真正实现从‘单点突破’到‘集群创新’的跨越,进而更好地满足产业发展的核心需求。”

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新