近日,安谋科技(Arm China)发布了全新的中高算力NPU“周易”X3,作为安谋科技自研的第六代NPU IP,“周易”X3一个很显著的特点是采用了专为大模型而生的最新DSP+DSA架构,即通用NPU(GPNPU)架构,旨在兼顾AI加速器对性能与通用性的需求。
![]()
从初代“周易”Z1 NPU到第五代“周易”X3 NPU,产品迭代大幅提升了性能、计算效率,也进行了架构的演进。“周易”NPU X3针对Transformer及当下主流大模型进行了架构升级,成为一款单Cluster支持8-80 FP8 TFLOPS算力且可灵活配置、单Core带宽高达256GB/s的新一代边端侧AI NPU IP产品。
![]()
“周易”X3 NPU的推出,一方面体现AI技术日新月异,展现安谋科技始终站在边缘和端侧AI的最前沿不断更新迭代。另一方面,也代表着AI加速器的竞争正处于“混乱”阶段,CPU、GPU、NPU都在大幅提升其AI性能。
安谋科技Arm China NPU产品线负责人兼首席架构师舒浩博士对雷峰网表示,“AI计算架构现在处于‘混乱发展期,大家在从不同维度探索,最终一定会收敛到一个相对最优的解决方案,这是任何技术发展都必经的过程。当下是一个‘百花齐放、百家争鸣’的时代。安谋科技会站在技术演进的潮头不断创新、持续演进,当好中国智能计算的生态领航者。”
为什么定义8-80 FP8 TFLOPS的NPU算力?
在芯片定义的早期,最关键也是最难的问题是到底要定义一款多大算力的芯片。“面对这一问题,我们首先要思考两点:第一,我们要瞄准哪些领域和应用场景?第二,这些场景下产品对于NPU的系统约束是什么?”舒浩说,“针对边端侧的主流场景和产品形态,我们进行了系统的分析和调研,定义了8-80 FP8 TFLOPS的产品算力规格。进而,针对不同领域和场景的需求,我们规划了灵活可配的产品特性,可以灵活、快速地适配不同场景对于NPU算力的差异化需求。此外,针对当下主流大模型对于FP8数据格式的需求,我们也及时进行了算力规格的支持。”
![]()
可以看到,“周易”X3 NPU聚焦基础设施、智能汽车、移动终端、智能物联网四大核心领域,定义了8-80 FP8 TFLOPS的AI算力,可应用于加速卡、智能座舱、ADAS、具身智能、AI PC、AI手机、智能网关、智能IPC等AI设备。
![]()
全新的“周易”X3 NPU,相较于前代“周易”X2,CNN模型性能提升30%~50%,多核算力线性度达到70%~80%。在同算力规格下,AIGC大模型能力提升10倍,这得益于16倍的FP16 TFLOPS、4倍的计算核心带宽,以及超10倍的Softmax和LayerNorm性能提升共同驱动。
安谋科技产品战略总监张冰表示,“‘周易’X3的8-80 FP8 TFLOPS的算力在边端侧是面向中大AI算力场景,和Arm的Ethos的小算力形成了互补,Arm+Arm China的产品组合可以覆盖整个边端侧的AI算力需求。”
为什么是DSP+DSA的通用NPU架构?
明确了芯片面向的场景以及所需的算力之后,下一步我们需要确定这些领域所需的AI算法和网络。通过系统地分析AI算法和网络的成熟度、发展状态以及在不同领域中的应用状态,这样我们就可以进一步确定合适的技术路线。“周易”X3 NPU选择的是DSP+DSA的架构,这使得“周易”X3可以同时满足传统CNN模型,以及最新的Transformer模型的需求,在计算效率、互连带宽、精度适配、任务调度四大维度实现升级。
![]()
不过在数据类型的支持上,这款通用NPU呈现出一种看似“矛盾”的特性:一方面积极采用低比特量化以节省资源,另一方面又不吝资源地支持高精度的浮点数据格式。
“周易”X3 NPU新增端侧大模型运行必备的W4A8/W4A16计算加速模式,新的计算加速模式对模型权重进行低比特量化,大幅降低带宽消耗,支持云端大模型向端侧的高效迁移。
而与此同时,“周易”X3 NPU支持全面的矩阵计算数据格式:int4/int8/int16/ fp4/fp8/fp16/bf16以及混合精度计算,增强了浮点运算FLOPS,可以实现从定点到浮点计算的转换和兼容,同时满足了传统模型和大模型的计算需求。
对于端边侧的NPU来说,资源有限的情况下,业界在努力探索通过量化的方式在端侧实现更好的AI体验,“周易”X3 NPU为什么强调浮点数据格式的支持?
舒浩解释道:“对于传统模型来说,模型的能力已经满足了实际需求,这个时候大家的关注点会集中在模型效率和硬件计算效率上。针对这一类型的模型,业界会花更多的精力在量化等相关技术上,同时硬件层面也只要支持整形计算就可以满足模型的要求,进而获取更好的计算效率。但是,在大模型时代,目前整形数据格式还不能比较好地满足模型对精度的要求,业界的趋势是使用低精度的浮点数据格式和混合精度计算来做一个精度和效率之间权衡。同时,大模型网络仍在快速发展和不断演进之中,这个时候如何能够更快速地进行网络适配和端侧部署是更为重要的一件事。因此,”周易” X3 NPU着重强调了对浮点数据格式以及混合精度计算的支持,其中包括了Deepseek率先使用的fp8数据格式。”
他补充道,“另外,针对大模型算法,单从技术上来讲,我觉得现在业界没有一个足够高效和强大的网络满足应用的需求。无论是模型还是量化算法都还有很多的不确定性。在这个过渡期,量化数据格式并不知道最终会收敛于浮点还是定点,所以各种手段都要上,‘周易’X3就同时支持定点和浮点。”
支持浮点还有一个显著的优势,通过剪枝、蒸馏、量化等一系列方式进行模型等轻量化,在端侧部署时,会面临模型精度下降带来的体验下降,浮点计算能带来更高精度。
从系统层面上来说,这涉及到从模型、轻量化到硬件多个层面的复杂问题,“周易” X3 NPU的策略是提供相对全面的全栈优化能力,将更多的优化空间留给客户。
舒浩也指出,“如果客户是传统领域,不需要全部的浮点类型,或者有的客户只需要浮点计算,‘周易’X3 NPU都可以灵活配置,针对不同领域配置出相对最优的NPU方案。”
![]()
同时支持更低比特的量化和浮点计算正是DSP+DSA架构的通用NPU的优势。舒浩博士分享,在计算架构的演进上, “周易” X3 NPU还将继续沿着混合架构这个方向前进,在NPU中吸纳更多CPU和GPU的思想,让AI的应用可以更高效地运行在NPU上,最终衍生出真正面向AI的NPU计算架构。
“但这并不意味着NPU会替代CPU,CPU可以和NPU异构计算,承担更复杂的任务和功能。”舒浩强调。
除了DSP+DSA的架构,“周易”X3 NPU在架构层面还有其他创新,包括集成自研解压硬件WDC,这使大模型Weight软件无损压缩后通过硬件解压能获得额外15%~20%等效带宽提升。
还有,“周易”X3 NPU集成AI专属硬件引擎AIFF(AI Fixed-Function)与专用硬化调度器,能够实现超低至0.5%的CPU负载与低调度延迟,灵活支持端侧多任务场景和任意优先级调度场景,确保高优先级任务的即时响应。
借助新特性,“周易”X3 NPU让大模型的推理更加高效,在Llama2 7B大模型实测中,“周易”X3 NPU在Prefill阶段算力利用率高达72%,并在安谋科技自研的解压硬件WDC的加持下,实现Decode阶段有效带宽利用率超100%,远超行业平均水平,满足大模型解码阶段的高吞吐需求。
为什么提供完备的软件平台?
“周易”X3 NPU计算效率的大幅提升和新特性的实现,离不开软硬件充分协同。
安谋科技Arm China产品总监鲍敏祺指出:“‘周易’X3 NPU遵循‘软硬协同、全周期服务与成就客户’的产品准则,提供从硬件、软件到售后服务的全链路支持。”
![]()
与“周易”X3 NPU配套的软件平台是“周易”Compass AI,这一完备的软件平台提供覆盖开发全流程的工具链,平台中的NN Compiler(神经网络编译器)集成Parser(模型解析)、Optimizer(优化器)、GBuilder(生成器)及AIPULLM(大模型运行工具),可实现主流模型的高效转化、自动化优化与部署配置生成,并且具备五大核心能力,包括:
广泛的框架与模型支持:支持超160种算子与270种模型,兼容TensorFlow、ONNX、PyTorch、Hugging Face等主流AI框架,提供开箱即用的Model Zoo。
创新的Hugging Face模型“一键部署”:通过AIPULLM工具链,直接支持Hugging Face格式模型,实现“一站式”转化与部署,极大降低开发门槛。
先进的模型推理优化:实现业界领先的大模型动态shape支持,高效处理任意长度输入序列;同时提供包括Tensor/Channel/Token Level多样量化方式,以及GPTQ等大模型主流量化方案,并增加对LLM/VLM/VLA及MoE等模型的高性能支持,保障推理精度并实现云到端快速迁移。
灵活的开发者赋能:提供多种开放接口,支持用户模型与自定义算子的开发与调试;配备丰富的调试工具与Bit精度软件仿真平台,支持多层次白盒开发与性能调优,极大简化算法移植与部署。
全面的系统与异构兼容:支持Android、Linux、RTOS、QNX等多种操作系统,并通过TVM/ONNX实现SoC异构计算,高效调度CPU、GPU、NPU等计算资源。
作为IP提供商,安谋科技为何要提供完备的软件平台?舒浩表示:“边端侧AI落地过程中,客户需要投入大量的人力、物力进行模型适配、调优和部署。如果没有完备软件平台的支持,这会极大地增加客户业务落地的难度和工作量。‘周易’ X3 NPU提供了完备的软件栈支持和丰富的工具,可以有效帮助客户加速AI业务的端侧部署工作。‘周易’ X3 Compass端到端软件平台正是我们作为AI智能计算领航者一个很好的体现。作为一个开放的AI软件生态,‘周易’ X3 Compass软件平台可以帮助客户降低工作量,提升开发效率,在此基础上我们也开放了很多的软件接口,客户可以构建其差异化的AI系统解决方案,进而构建差异化的产品竞争力。”
![]()
这是否意味着对于使用“周易”X3 NPU开发芯片产品的芯片公司来说,甚至不用在软件栈方面投入就可以给开发者使用?
舒浩解释,如果是与AI强相关的软件栈及标准模型,基本上客户不需再投入,使用“周易” X3 Compass软件栈就可以完成模型适配、调优等各种工作。“我们的目标就是避免客户对于这些组件的重复投入与开发。同时,这种情况下我们也不建议客户进行额外的投入:因为NPU的软硬件耦合非常紧密,只在软件层面投入研发,在对硬件没有足够的了解的情况下,很难获取系统性有效的提升,这种投入可能是一个‘灾难’。”
“另一方面,我们的‘周易’ X3 Compass AI软件平台在runtime(运行时)层面提供了更多的自定义接口,包括:自定义算子接口、自定义图优化接口、NPU驱动接口等,使用这些接口客户可以根据SoC架构和软件系统构建适合于自己的NPU软件方案。”舒浩补充道。
由此可见,“周易”Compass AI软件平台完备的组件和工具,既可以满足开发者白盒部署需求,支持更易用的DSL算子编程语言,开发者也可以在深度开发模式下,使用平台中的Compiler、Debugge和DSL语言开发自定义算子,也可通过Parser、Optimizer等工具打造专属的模型编译器,极大提升开发效率。
一个能充分体现“周易”X3 NPU卓越硬件融合的例证是前面提到的AIFF模块软硬件设计中,硬件端充分结合软件使用场景,通过增大总线带宽、增加数据流水线并行及复杂算子加速等方式提升数据搬运、数据并行效率,软件端则针对硬件特性设计专属使用模式,如对模型进行合理切分以充分发挥多核并行优势。
All in AI战略,安谋科技保持AI领导力
“周易”X3 NPU是安谋科技Arm China“All in AI”产品战略下诞生的首款重磅产品,也是“AI Arm CHINA”战略发展方向的关键实践。
在这一战略之下,安谋科技会大力投入NPU IP,保持业界领先地位,并以开放合作的态度积极适配主流模型和OS,致力于为客户提供涵盖硬件、软件、技术服务的完整解决方案。
![]()
其实从过去五代“周易”NPU就能看出其领先性,接下来安谋科技的团队还会关注PD分离在端侧的衍生应用,存算一体以及3D IC等前沿半导体技术,保持在AI方面的持续投入和领先地位。雷峰网





京公网安备 11011402013531号