9 月 10 日,Arm 在 Arm Unlocked 2025 峰会上正式推出了全新 Arm Lumex 计算子系统(Compute Subsystem, CSS)平台,这款专为旗舰级智能手机及下一代个人电脑打造的先进计算平台,核心目标是加速设备端人工智能(AI)体验。
据 Arm 官方介绍,Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展(SME2)技术的高性能 Arm CPU、GPU 及系统 IP,不仅能帮助生态伙伴缩短 AI 设备上市周期,还可支持桌面级移动游戏、实时翻译、智能助手等多样化场景,为消费电子设备注入“更智能、更高效、更个性化”的能力。
![]()
Lumex 平台的核心组件包括:搭载第二代可伸缩矩阵扩展(SME2)技术的全新 Armv9.3 CPU 集群、配备新一代光线追踪技术的 Arm Mali G1-Ultra GPU、高效的系统 IP 以及针对 3 纳米工艺节点优化的物理实现方案。
这一高度集成的平台化交付模式,为 Arm 的合作伙伴提供了前所未有的灵活性。他们既可以直接采用 Arm 交付的、经过先进物理实现方案优化的平台,以缩短产品上市时间;也可以根据自身目标市场的需求,对平台的寄存器传输级(RTL)设计进行配置,并自行完成核心模块的硬化工作。
Arm 在发布会上公布了引人注目的性能指标:依托全新的 SME2 技术,CPU 的 AI 性能实现了高达五倍的提升;而全新的 GPU 则带来了两倍的光线追踪性能飞跃。
这些数字背后,是 Arm 对于未来计算架构的深刻思考,以及其在日益复杂的芯片设计挑战下,为整个生态系统提供的战略性解决方案。
![]()
而就在 9 月 10 日下午,Arm 还举办了针对 Arm Lumex 计算子系统专门的技术分享活动,IT之家也受邀参加,下面就让我们看看 Arm Lumex 计算子系统具体有哪些细节上的技术创新。
重塑计算核心:SME2 技术驱动的 C1 CPU 集群
Arm Lumex CSS 平台的心脏是其全新的 C1 CPU 集群。此次更新的最大亮点,并非仅仅是常规的单线程性能提升,而是通过战略性地集成第二代可伸缩矩阵扩展(SME2)技术,重新定义了 CPU 在异构 AI 计算环境中的角色。
SME2:为低延迟 AI 任务而生的新范式
C1 CPU 集群是首个基于 Armv9.3 架构并原生集成 SME2 技术的 CPU 系列。这项技术为端侧 AI 带来了革命性的突破,在同等条件下,相比上一代 CPU 集群,其 AI 性能提速高达五倍,同时能效优化多达三倍。
在实际应用中,这些宏观的数字提升可以转化为用户可感知的体验飞跃。例如,在处理语音工作负载时(基于 Whisper base 模型),延迟降低了 4.7 倍;在运行 Google Gemma 3 模型进行聊天交互时,AI 性能可增长 4.7 倍;而在使用 Stability AI Stable Audio 模型生成音频时,速度提升了 2.8 倍。
![]()
然而,SME2 的战略意义远不止于此。在媒体问答环节,Arm 高管透露,SME2 技术可为 CPU 提供额外的 2 到 6 TOPS 算力。这个数字与动辄宣称上百 TOPS 的专用 NPU 相比似乎微不足道,但这恰恰揭示了 Arm 的深层战略。许多现实世界中的 AI 工作负载,如语音唤醒、图像预处理或实时情境感知助手,其瓶颈在于内存带宽而非纯粹的计算能力。一个拥有百 TOPS 算力的 NPU,如果因等待数据而闲置,其峰值性能便毫无意义。
CPU 凭借其对系统缓存和内存的低延迟直接访问能力,在处理这些规模小、触发频繁且对延迟极其敏感的任务时,效率远高于启动一个高功耗的 NPU。因此,Arm 并非试图用 CPU 取代 NPU,而是在构建一个更精细化的三级异构计算体系:
![]()
搭载 SME2 的 CPU:负责处理“持续在线、低延迟”的小模型任务。
GPU:负责处理与图形渲染相结合的大规模并行 AI 任务。
NPU:负责处理高吞吐量、计算密集型的大模型推理任务。
这是一种基于工作负载特性进行精细化处理器优化的成熟策略,而非单纯追求峰值算力的“军备竞赛”。SME2 的引入,为系统增加了一个全新的、高效且灵活的 AI 计算层级。
C1 CPU 家族:精准定位,全面覆盖
为了满足从旗舰到入门级市场的不同需求,Arm 推出了分工明确的 C1 CPU 系列,所有核心均可通过全新的 Arm C1-DSU(DynamIQ Shared Unit)进行多达 14 个核心的灵活组合。该 DSU 本身也经过优化,与上一代 DSU-120 相比,功耗节省高达 26%。
![]()
Arm C1-Ultra 作为旗舰核心,延续了 Arm 连续六年实现两位数 IPC(每时钟周期指令数)增长的势头,其单线程峰值性能相较于上一代的 Cortex-X925 提升高达 25%。这得益于其业界领先的前端设计、业内最宽的微架构以及出色的预取器优化。
![]()
Arm C1-Premium 是 Arm 首次推出的次旗舰处理器。其核心创新在于卓越的面积效率,在 SPEC 等基准测试中保持了与 C1-Ultra 相当的性能水平,但其核心面积(包含私有 L2 缓存)却缩小了 35%,为次旗舰 SoC 设计提供了更优的成本与性能平衡点。
Arm C1-Pro 则聚焦于持续能效表现。与 Cortex-A725 相比,它在相同主频下的持续性能提升了 16%,而在视频播放、社交媒体等日常应用中,同等性能下的能效提高了 12%。
Arm C1-Nano 追求极致的能耗和面积效率,相比 Cortex-A520,其能效提升了 26%,同时核心面积还缩小了 2%,是可穿戴设备和紧凑型消费电子的理想选择。
融合真实与智能:Mali G1-Ultra GPU 的深度解析
在 Arm Lumex CSS 平台的图形与 AI 推理环节,全新 Arm Mali G1-Ultra GPU 扮演着核心角色。
作为 Arm 迄今为止性能最强的移动 GPU,Mali G1-Ultra 不仅延续了 Arm 在手游领域的优势(截至目前,搭载 Arm GPU 的芯片出货量已逾 120 亿颗),更通过新一代光线追踪技术与 AI 加速设计,将移动设备的图形体验推向桌面级水准,同时强化了端侧 AI 推理能力。
![]()
从核心技术升级来看,Mali G1-Ultra 的突破集中在第二代光线追踪单元(RTUv2)、AI 加速指令与架构优化三大方面。
其中,RTUv2 作为专为移动端实时性能设计的硬件单元,较上一代 Immortalis-G925 GPU 的 RTUv1 实现了两倍光线追踪性能提升,且采用单光线模型与独立电源域设计 —— 独立电源域可在设备空闲时为 RTUv2 断电,进一步节省功耗;单光线模型则大幅增强了对非一致性光线的支持,使移动设备能呈现桌面级的光照、反射与阴影效果。
![]()
在实际游戏测试中,Mali G1-Ultra 的表现尤为突出:《暗区突围》性能提升 25%,《崩坏:星穹铁道》提升 19%,《原神》提升 17%,《堡垒之夜》提升 11%,而在 Arm 内部游戏演示《Mori 林间鼯语》中,性能提升更是达到 26%。此外,在启用硬件光线追踪的游戏中,Mali G1-Ultra 的帧率较上一代提升 40%,彻底改变了移动设备“光追性能不足”的现状。
![]()
在 AI 加速方面,Mali G1-Ultra 引入了新的矩阵乘法单元(MMUL)FP16 指令,专门针对语义分割、去噪、深度估计、物体检测等端侧关键 AI 工作负载优化,较上一代 Immortalis-G925 GPU,AI 与机器学习网络推理速度提升 20%,部分场景性能提升甚至高达 104%。
同时,通过扩大 L2 缓存与优化互连设计,Mali G1-Ultra 实现了 AI 与图形工作负载的并行处理,大幅减少内存瓶颈,确保实时 AI 应用(如计算摄影、AI 滤镜)的流畅运行。
架构层面,Mali G1-Ultra 作为 Arm 第五代 GPU 架构的代表,引入了双堆叠着色器核心与快速访问统一寄存器设计:双堆叠着色器核心使内部带宽加倍,减少了数据拥塞;快速访问统一寄存器则在着色器执行期间大幅减少内存提取,显著提升了实时光照、基于物理渲染等计算密集型工作负载的响应速度。此外,新增的 Arm 图像区域依赖(IRD)调度特性,可让 GPU 同时处理屏幕不同部分,在复杂场景中减少空闲时间、提升性能。
![]()
为满足不同设备层级的需求,Arm 同时推出了 Mali G1-Premium 与 Mali G1-Pro GPU,与 G1-Ultra 共同构成 Mali G1 系列。该系列提供 1-24 个着色器核心选项,系统级芯片(SoC)设计商可根据目标市场(从旗舰手机到中端设备)灵活配置,实现性能与成本的平衡。
![]()
在开发者工具层面,Mali G1 系列通过基于块(tile)的硬件计数器提供更强的可观测性,开发者可通过 Vulkan 扩展访问这些计数器,未来安卓版本还将支持 RenderDoc,便于精准识别性能热点、平衡工作负载。
同时,Mali G1 系列支持 Arm 精锐超级分辨率技术(Arm ASR),该时域类超分技术已集成至虚幻引擎 5 与《堡垒之夜》手游,可在减少 GPU 工作负载的同时提升图像质量,帮助开发者在保持高帧率的前提下,实现更清晰的视觉细节。
不久前,ARM 还宣布了一项名为“Arm 神经技术”(Arm Neural Technology),这项技术将专用神经加速器引入 2026 年推出的 Arm GPU 上。在本次技术分享会上,Arm 也提到了这项未来技术,它将是一个可编程的、基于 AI 的硬件模块,专门用于处理超级采样、降噪等任务。
这揭示了一条清晰的路线图:首先通过软件方案(ASR)构建生态、验证概念,未来再通过专用硬件实现性能和能效的巨大飞跃。这与桌面 GPU 领域从通用渲染到引入专用 Tensor Core 的演进路径如出一辙,可见 Arm 正在为移动端的下一波 AI 原生图形技术浪潮铺平道路。
无形的引擎:软件生态如何释放 Lumex 的全部潜能
Lumex 平台的硬件进步固然令人瞩目,但其真正的潜力释放,还离不开一个强大且经过精心构建的软件生态系统。这个生态的核心是 Arm KleidiAI 软件库。可以说,软件是 Arm 确保其硬件创新能够被开发者即时、广泛采纳的战略性工具。
KleidiAI 是一个免费的软件库,其核心价值在于,它能让开发者在无需修改任何代码的情况下,无缝利用 SME2 等硬件的加速能力。
![]()
它通过深度集成到所有主流 AI 框架中来实现这一点,包括 PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN 以及微软 onNX Runtime。当开发者使用这些框架构建应用时,其 AI 工作负载就能在兼容的硬件上自动获得加速。
![]()
这一策略的成功,从数据上可见一斑。目前,KleidiAI 在搭载 Arm 架构的设备上累计安装量已超过 80 亿次,并且仍在持续增长中,这证明了其在开发者社区中的高度认可和广泛采纳。
此外 Arm 还为不同操作系统提供了清晰的 AI 加速路径:
在安卓平台,加速主要通过 Kleidi 集成到 Google 的 XNNPack 库中实现,而 XNNPack 是 LiteRT 的核心运行时。这意味着数以千计使用标准 Google ML 工具的安卓应用将自动获得性能提升。
在 Windows on Arm 平台,主要路径则是通过 onNX Runtime 框架,该框架为 Copilot、Office 365 等核心应用的 AI 功能提供动力。
这种对开发者生态的深度支持,解决了新硬件推广时常遇到的“鸡生蛋,蛋生鸡”的难题。KleidiAI 提供了一个从 Armv8 的 Neon 指令集到 Armv9 的 SME2 的向上兼容性,创建了一个稳定、统一的软件抽象层。
开发者只需面向高层框架开发一次,KleidiAI 便会自动在不同设备上选择最优的执行路径。这极大地降低了开发门槛,并确保当消费者购买一台搭载 Lumex 平台的手机时,已有海量应用能够立即发挥其强大性能。
结语
总体来说,Arm Lumex CSS 平台的发布,远不止是一次硬件的迭代更新。它是 Arm 从 IP 授权商向平台提供商战略演进的集中体现,也是其为应对当前半导体行业关于端侧 AI 的指数级增长和前沿工艺制造的巨大复杂性这两大核心挑战所给出的明确答案。
通过 C1 CPU 集群和 SME2 技术,Arm 重新划分了异构计算中各处理单元的职责,为低延迟 AI 任务开辟了高效的新路径。通过 Mali G1-Ultra 和 RTUv2,它将移动游戏的视觉体验提升至新的高度,并为 AI 与图形的深度融合奠定了基础。而通过 KleidiAI 软件生态,它确保了这些强大的硬件能力能够被开发者轻松、快速地转化为丰富的用户体验。
将所有这些创新整合在一个经过 3 纳米工艺优化的、预验证的“计算子系统”中进行交付,这本身就是一项关键创新。
![]()
它直接解决了芯片设计合作伙伴在转向先进工艺节点时所面临的巨大成本、风险和时间压力。通过同时解决“为 AI 构建什么”(架构挑战)和“如何在 3 纳米上构建”(实现挑战)两大难题,Arm 正在成为未来十年移动和消费电子领域不可或缺的核心伙伴,而 Lumex CSS 平台,正是下一代智能设备赖以构建的坚固基石。





京公网安备 11011402013531号