当前位置: 首页 » 资讯 » 新科技 » 正文

摩尔线程的野心,不藏了

IP属地 中国·北京 量子位 时间:2025-12-22 00:07:45

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

上市后的仅15天,摩尔线程

在这次首届、也是国内首个聚焦全功能GPU的开发者大会中,围绕着MUSA这个关键词,新品可谓是目接不暇:

一个全新GPU架构:花港,密度提升50%,效能提升10倍。三款新芯片:华山、庐山、长江,分别聚焦AI训推一体、图形渲染和智能SoC。一个智算集群:夸娥万卡集群(KUAE2.0),定位国产自主研发的AI Foundry。两款硬件产品:专为开发者打造的AIBOOK和AICube。

这并非零散的产品更新,而是摩尔线程用一套从云到端、从算力到生态的组合拳。



在长达2个多小时的发布中,最直观的感受就是,摩尔线程,已经把国产GPU推向了下一个level。

接下来,我们就从最最最核心的全新GPU架构花港为起点,对此次开发者大会一探究竟。

MUSA,已经成了全功能GPU架构的代名词

什么是MUSA?

它的全名叫做meta-computing Unified System Architecture,是摩尔线程自主研发的元计算统一计算架构。

该怎么理解?可以说,从芯片架构、指令集、编程模型,到软件运行库及驱动程序框架,都属于MUSA的范畴。



历经五年的发展,MUSA已经完整定义了全功能GPU从芯片设计到软件生态的统一技术标准,并且支持AI计算、图形渲染、物理仿真和科学计算、超高清视频编解码等全场景高性能计算。

若是纵观MUSA硬件架构这几年的迭代,从苏堤、春晓、曲院,再到平湖,每一次的升级都是在探索着GPU算力的边界。



最新发布的第五代全功能GPU架构花港,亦是如此:

算力密度提升50%:在同等芯片面积下,可部署更多计算单元;计算能效提升10倍:单位瓦特性能大幅优化,为大规模智算集群提供绿色底座;新增FP4计算:从FP4、FP6、FP8到FP16、BF16乃至FP64,实现全精度端到端计算,覆盖AI、HPC、图形等全场景需求;支持十万卡集群:通过MTlink高速互联,为超大规模模型训练铺平道路。

尤为值得关注的是,花港在低精度计算上的深度优化。架构新增了MTFP6/MTFP4及混合低精度端到端加速技术,专为未来AI主流场景——低比特训练与推理而生。

在Attention机制的关键路径上,花港原生支持矩阵rowmax计算,大幅提升混合精度SIMT吞吐量,并内置在线量化/反量化、随机舍入等硬件加速能力,为下一代Transformer引擎(如MT Transformer Engine)提供底层支撑。



如果说硬件架构是能力的基石,那么软件栈,就是将这些能力交到开发者手中的具体路径。

除了架构本身之外,摩尔线程这次还同步推出了MUSA软件栈5.0,构建从编译器、算子库到AI框架的全栈工具链:

AI框架广泛适配:除PyTorch、PaddlePaddle外,新增对JAX、TensorFlow的支持;训练生态扩展:在Megatron、DeepSpeed基础上,新增强化学习训练框架MT VeRL;推理引擎丰富:深度优化自研MTT推理引擎与TensorX,同时适配SGLang、vLLM、Ollama等新兴推理框架;核心库极致优化:muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍;编程语言创新:推出面向AI+渲染融合的muLang,兼容TileLang、Triton,原生支持MUSA C,并发布GPU中间表示语言MTX 1.0,提升开发者调优自由度。

更关键的是,摩尔线程宣布将逐步开源MATE算子库、MUTLASS、MT DeepEP通信库、KUAE云原生工具包等核心组件,向开发者社区开放底层能力,加速生态构建。

不难看出,MUSA并未将自身定位为单纯的AI加速器,而是以“全功能 GPU”为锚点,将 AI 能力深度嵌入图形渲染、物理仿真、量子计算等高价值垂直场景。

这种从通用底座向产业纵深延伸的架构哲学,使其区别于纯粹的大模型训练卡,而更接近英伟达 CUDA 生态早期“以通用可编程性撬动多元应用”的战略路径。

可以说,MUSA 不仅是中国首个全功能GPU架构,更是对“下一代 AI 基础设施应长什么样”的一次系统性回答——

它不再只是算力的提供者,而是多模态智能、具身智能乃至物理AI时代的关键使能平台。在这一意义上,摩尔线程的架构创新,已不仅是技术突破,更是对未来 AI 产业格局的一次主动定义。

而围绕着新升级的MUSA,摩尔线程这次还祭出了更多重磅产品。

三个新芯片,两个新硬件,一个万卡集群

首先基于花港架构,摩尔线程发布了两款芯片路线。

第一个便是聚焦在AI训推一体及高性能计算的GPU——华山



它的核心亮点可以总结为:

全精度支持:从 FP4 到 FP64,覆盖低精度训练与高精度科学计算;MTFP4/MTFP6 混合低精度加速:Attention 计算从 BF16 向 FP8 甚至 FP6 演进,大幅提升 Transformer 吞吐;硬件级优化:原生支持矩阵 rowmax 计算、在线量化/反量化、随机舍入等算法,专为大模型训练定制;新一代异步编程模型:支持常驻核函数、线程束特化,极大提升并行效率。

并且从浮点算力、访存宽带、访存容量和高速互联宽带等维度来看,华山正在追赶英伟达的系列产品。



华山的推出,标志着摩尔线程正式具备支撑万亿参数大模型训练的能力,为国产AI基础设施补上关键一环。

如果说华山主攻A 算力,那么接下来的GPU——庐山,则专为图形计算而生。



相比上一代产品,其AI计算性能提升了惊人的64倍,3A游戏渲染性能提升15倍。

庐山引入了AI生成式渲染架构(AGR)和硬件光追引擎,支持DirectX 12 Ultimate。这意味着,国产显卡正式迈入“光追+AI渲染”的新范式,不仅仅是“算”画面,更是“生成”画面。

除此之外,在端侧,摩尔线程还首次推出了智能SoC芯片——长江



据了解,长江芯片不局限于传统PC或服务器,而是面向具身智能、车载、AI计算终端等端侧场景,提供50 TOPS的异构AI算力。

有了芯片,自然要有承载的载体。

基于长江芯片,摩尔线程这次还发布了两个非常亮眼的硬件产品。

首先就是MTT AIBOOK

这个算力本是专门为AI学习与开发者打造的个人智算平台,运行基于Linux内核的MT AIOS操作系统,具备多系统兼容能力,并预置完整AI开发环境与工具链,通过虚拟化和安卓容器,可无缝运行Windows与安卓应用。

如此一来,你就可以直接在上面跑大模型、搞Agent开发。



MTT AIBOOK内置的智能体小麦,还支持2K高清渲染、本地大模型(如 MUSAChat-72B)、端侧 ASR/TTS,这就让它从工具变成了超级个体助手。



并且MTT AIBOOK还预装了智源悟界Emu3.5多模态模型,开箱即可文本生图、编辑图像。

除此之外,针对端侧场景,摩尔线程还推出了桌面上的AI小钢炮——AICube

它更像是一个高性能的AI计算魔方,让开发者在桌面上就能轻松获取算力支持,处理复杂的推理任务。



最后,也是最重磅的——夸娥(KUAE 2.0)万卡智算集群;毕竟在大模型领域,万卡集群是公认的入场券。

摩尔线程此次宣布,其万卡集群在Dense大模型上的算力利用率(MFU)达60%,在MOE大模型上达40%,有效训练时间占比超过90%。

最硬核的消息是:摩尔线程已完整复现了DeepSeek V3的FP8训练。 依靠S5000对低精度算子的优化,其自研FP8 GEMM算力利用率高达90%。



在这次大会上,摩尔线程还前瞻性地披露了下一代高密硬件基石——MTT C256超节点。

这款产品采用了计算与交换一体化的高密设计。它的出现,是为了系统性地提升万卡集群在超大规模智算中心里的能效比和训练效能。



这个量级的表现,意味着它已经具备了正面硬刚国际主流Hopper架构AI GPU的底气,是未来超大规模大模型训练和实时推理的国产标准答案

并且就在最近,摩尔线程还和硅基流动(SiliconFlow)联合宣布:

基于硅基流动高性能推理引擎,双方已在摩尔线程MTT S5000 GPU上成功完成对DeepSeek V3 671B满血版大模型的深度适配与性能验证。

在FP8低精度推理技术加持下,MTT S5000单卡实测Prefill吞吐突破4000 tokens/s,Decode吞吐超1000 tokens/s,创下当前国产GPU在大模型推理场景下的新高。

这一成果不仅刷新了国产GPU的推理性能基准,更传递出一个关键信号:

在成熟软件工程体系(如MUSA架构与硅基流动推理引擎)的协同优化下,国产算力硬件正从“能跑”迈向“跑得快、跑得稳、跑得值”。

换句话说:单位算力的有效利用率,正在成为国产AI芯片真正落地的关键指标——而摩尔线程,这次交出了一份高分答卷。

生态,生态,还得看生态

在全球算力竞争日益白热化的今天,单一芯片的性能优势已不足以构建护城河。

真正的壁垒,在于软件生态、硬件协同、场景落地与开发者信任的综合能力。

摩尔线程深谙此道,它的选择也非常清晰:不走局部替代路线,而是以“MUSA架构+国产GPU+全场景产品”三位一体,打造一个从底层指令集到上层应用的完整生态闭环。

这不仅包括人才生态,更涵盖繁荣的软件开发生态——从自研编译器、高性能算子库,到对主流AI框架的广泛适配,摩尔线程提供了释放算力所需的全套软件工具链;同时,通过AIBOOK等面向开发者的硬件入口产品,让开发者能够随时随地接入并高效使用MUSA算力,真正实现软硬协同、端云一体的全场景覆盖。

但除此之外,开发者和开发生态,亦是其中非常关键的一环。

这便是摩尔线程打造摩尔学院(MUSA开发者的成长平台)的原因了。



截止2025年12月,摩尔学院已经汇聚了20万名开发者。摩尔线程的目标更宏大:培育百万规模的MUSA开发者社群。

为此,他们不仅提供了从入门到大师的专业课程,还把根扎到了人才源头——走进全国200所高校。通过产教融合、联合实验室以及“繁星计划”等竞赛,摩尔线程正在从象牙塔开始,培养属于自己的、懂国产架构的原生代开发者。

这也印证了中国工程院院士、清华大学计算机系教授郑伟民的观点:“国产GPU的关键,在于要从能跑到愿意用。”

整体来看,当别人还在争论“国产 GPU 能不能用”时,摩尔线程已经通过从软件栈工具、硬件入口到人才培育的全链路布局,让开发者问出另一个问题:“我的下一个项目,能不能全在 MUSA 生态里完成?”

这,或许才是真正的突破。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。