智东西
作者 陈骏达
编辑 漠影
随着大模型的快速演进和模型参数规模的快速增长,AI算力需求正呈现爆发式态势。然而,支撑芯片发展的摩尔定律已逼近物理极限,晶体管微缩带来的成本呈指数级上升,性能提升幅度却逐年收窄。
这一根本性矛盾促使业界亟需探索一种能继续扩展AI基础设施的解决方案。超节点技术应运而生,通过数十张乃至数百张加速卡的高带宽互连,将相对独立的计算资源整合为统一的超级计算单元,突破了传统架构在规模扩展上的瓶颈。
不过,在国内环境中,由于高端算力的缺乏,国产超节点方案往往需要整合更大规模的集群,这对互连技术提出了更高的要求。在带宽、能耗、传输距离上较传统电互连方案更具优势的光学方案的应用,有望逐步成为推动超节点性能提升的关键驱动力。
就在昨天,国内光电混合算力独角兽曦智科技在世界人工智能大会(WAIC)上发布了国内首个光互连光交换GPU超节点光跃LightSphere X,并联合壁仞科技、中兴通讯首次进行示范应用,即将于上海仪电国产超节点算力集群落地。
凭借全球首创的分布式光交换技术,光跃LightSphere X获得世界人工智能大会的最高奖项,2025 SAIL奖,并成为SAIL四大评价维度(Superior, Application, Innovation, Leading)中“Innovation”(创新)维度的标杆案例。
近日,智东西与曦智科技创始人兼CEO沈亦晨博士、曦智科技联合创始人兼CTO孟怀宇博士以及曦智科技互连产品线副总裁朱剑进行了近2个小时的深入沟通,他们向智东西等媒体剖析了光跃LightSphere X背后的技术创新与曦智科技对光电混合算力行业的长期展望。
一、超节点互连技术路径分野,国产方案如何突围
当下,海外的超节点方案基本由英伟达主导,使用电交换构建单柜达72卡的大规模超节点,也就是所谓的GB200 NVL72。
该解决方案依赖于一个在国内看来几乎有些“奢侈”的前提——每张GB200的算力数倍于国产卡。若要实现同等效果,国产超节点可能需要进行成百上千卡的互连,在现有条件下,基本难以在单机柜内实现。
即便从理论上可行,单机柜内构建如此密集的电互连方案本身也面临极高的技术挑战和投入成本,对于目前国内的产业基础来说,依然是一项极具挑战性的任务。
因此,国产解决方案更可行的路径或许是通过增加机柜数量,先确保计算卡的总量,再通过高效互连技术组成超节点。
沈亦晨博士称,在多机柜场景下,传统的铜导线连接距离一旦超过1-1.5米,就无法满足超节点对带宽和延时的严苛要求,光互连几乎成为必选项。
谷歌曾在其TPU光互连超节点方案采用集中式光交换,实现GPU集群间的跨机柜通信。不过,该方案专为TPU定制,硬件成本高昂,对全栈软件能力要求较高,目前除了谷歌外尚未有其他厂商采用。
前段时间带火超节点概念的华为昇腾CloudMatrix 384超节点,也使用了光互连网络,配备近7000个光模块,让数百块GPU能实现高效协同。
此外,要打造高效的超节点方案,交换也是极为关键的一环。
沈亦晨博士介绍,在模型训练过程中,不同阶段GPU间的通信拓扑存在动态变化。英伟达采用NVSwitch电交换芯片集中调度NVlink信号,类似交通信号灯统一分配各GPU间的通信路径。
然而,国内GPU厂商普遍缺乏同类高性能电交换芯片,现有解决方案在性能上仍与英伟达存在显著差距。此外,国内GPU厂商的互连接口协议也各不相同,传统交换机无法做到统一调度。
面临种种挑战,国产超节点方案究竟应该如何破局?作为国内乃至全球领先的光电混合算力提供商,曦智科技依托其在光子计算和光子网络的技术积累,交出国内首个光互连光交换GPU超节点解决方案光跃LightSphere X。
二、首创分布式光交换芯片,相关成果获顶会认证
光跃LightSphere X的核心技术,是曦智科技全球首创的基于硅光子技术的分布式光交换dOCS(distributed Optical Circuit Switch)芯片。
若把传统集中式的交换芯片比为中央物流中心,将每张计算卡比为一个车间,分布式光交换技术所进行的调整,就是取消了中央物流中心,转而在每个车间旁边设置小型物料中转站,使物料传输路径更短、更直接。
得益于这一架构,光跃LightSphere X可灵活配置超节点的规模,并可灵活切换GPU间互连拓扑结构,以适应不同模型负载对通信模式的差异化需求。
在大规模训练、推理场景中,上述解决方案在GPU冗余率上展现出明显优势。传统超节点必须整体运作,单卡故障会导致整个节点下线,冗余成本高;而分布式光交换让超节点支持动态重组——当检测到异常时,系统可自动移除故障节点,接入备份服务器重新组网。
这种“卡级冗余”相比传统“节点级冗余”大幅降低备用资源需求,将冗余比例从整节点压缩到单卡级别,冗余率仅为英伟达、谷歌等方案的1/10。
光跃LightSphere X解决方案在商用光电转换模组的基础上,增加了用于光交换功能的芯片,以较低的成本实现了分布式的光交换。分布式设计方案几乎可以无限扩展,突破了传统交换芯片对连接数量的限制。
在本届WAIC期间发布的光跃LightSphere X获得了SAIL奖(WAIC最高奖项),也成为该奖项创新维度的标杆案例。而dOCS相关方案则收录于国际通信网络旗舰会议SIGCOMM 2025。
除了技术方面的突破之外,光跃LightSphere X还对国产算力生态起到了一定的推动作用。
当下,国产GPU类型、架构庞杂,协议各有区别,难以形成协同效应。而光交换本身不依赖于特定的数据传输协议,这意味着它能无缝兼容不同厂商使用的互连协议。这有效缓解了开放生态中缺乏高效Scale-Up交换芯片的现状,推动了基于光交换的Scale-Up技术路径。
此外,dOCS芯片基于硅光技术,其设计与制造不依赖于先进半导体工艺节点,这对提升算力基础设施供应链的安全性与韧性也有较大意义。
三、硅光技术迎来历史机遇期,5年内硅光芯片占比或将达30%
光跃LightSphere X是曦智科技在AI算力需求大爆发的当下,对光电混合算力的最新探索,这离不开曦智成立8年多来在硅光技术上的长期投入。该公司拥有光子矩阵计算(oMAC)、片上光网络(oNOC)和片间光网络(oNET)三大领域的核心技术,并打造了光子计算和光子网络两大产品线。
沈亦晨认为,近两年,硅光技术在国际上的热度和重视度不断攀升,可能已经走到历史上最好的阶段。面临这一历史机遇期,曦智从两年前便开始聚焦产品化、商业化,业务收入在过去3年内快速增长,今年芯片出货量已经达到数万颗。
放眼未来,曦智科技的高管们一致认为,随着算力集群和算力需求越来越大,硅光是必然的解决方案。虽然国际上纯电互连仍占主导,但华为这一主流厂商已将光互连引入超节点解决方案,英伟达的下一步也可能是如此。
此外,光互连和光交换技术当前仍属于系统级方案,通过外接光模组实现,通过不断迭代,未来光互连和光交换器件有望与主芯片实现共封装,从而进一步提高带宽和能效。
沈亦晨预测,未来五年,硅光芯片在智算中心的占比有望提升至30%以上。随着规模化量产,硅光芯片成本将成倍下降,推动成本降低到应用普及的正向循环。
具体来看,他认为光互连有望率先在未来几年出现指数级增长;光计算则从大模型推理、AI for Science等追求极致性能的场景切入,逐步扩展通用性。
曦智科技目前拥有一支近250人的团队,核心成员由来自麻省理工学院的顶尖科学家和拥有丰富半导体行业经验的业界知名人士组成,在上海、杭州、南京、北京、新加坡等地均设有办公室及实验室。
自成立以来,曦智科技在产品进展、技术研发、融资规模等方面均位居全球光电混合赛道前列。孟怀宇博士透露,曦智在光学芯片、模拟芯片、先进封装技术等方面都拥有前瞻性的技术储备。
负责互连产品线的朱剑则称,曦智有很多先进的技术储备,但该公司会采取较为务实的态度,根据市场的发展阶段提供适合的解决方案。
结语:实现从0到千卡突破,光电融合已成行业大势
光电混合算力作为一项前沿技术,在落地的时候必然面临客户原有技术路径的惯性问题。沈亦晨透露,直到如今,曦智仍需要花精力“教育市场”,逐步说服厂商采用这一技术。
令人庆幸的是,曦智已在光跃LightSphere X方案上实现了从0到千卡突破,将对光互连超节点方案的鲁棒性和成本效益验证起到极大的推动作用。
在智东西与曦智的沟通中,我们清楚地感受到其发展路径:以光电混合算力技术为支点,逐步撬动算力基础设施的升级,同时保持对“光替代电”的长期信仰。