解读 Arm 新一代 Lumex CSS 平台:SME2 如何让 CPU 读懂AI,光追与ASR技术又将怎样颠覆移动游戏?
作者|郑玄
当所有人都在谈论云端 AI 的万亿参数和千亿投资时,我们口袋里的手机,在 AIGC 浪潮中究竟扮演着怎样的角色?
不可否认,今天 AI 的主战场仍在云端。有着数万张高性能显卡的数据中心,支撑着模型的训练和绝大多数推理任务。但这套模式的挑战也日益凸显:高昂的算力成本、无法忽视的网络延迟,以及越来越严峻的能耗问题。每一次我们向云端 AI 提问,背后都是一次昂贵的计算和数据传输。
于是,行业里一个清晰的共识正在形成:AI的未来,必然是「云+端」的混合模式。将更多的 AI 能力下放到离用户最近的设备上,不仅能带来更快的响应、更好的隐私保护,更重要的是,它可能催生出全新的、真正「个人化」的 AI 体验。
而谈到终端,我们无法绕开 Arm。这家公司设计的架构,驱动着全球大部分的智能手机。这意味着,终端 AI 的未来图景,很大程度上取决于 Arm 在底层计算架构上提供了怎样的「画笔」。Arm 的选择,也一定程度上决定着整个移动生态能画出怎样的 AI 应用。
近日,Arm 举办了 Arm Unlocked 2025 AI技术峰会,详细解读了其下一代 Lumex CSS平台。这不仅仅是一次产品发布,更像是 Arm 对「AI 将如何重塑终端」这个问题的系统性回答。那么,这套被寄予厚望的新架构,究竟为端侧 AI 的爆发,准备了哪些关键的技术拼图?
01
CPU 的新角色:
SME2 为端侧 AI 注入原生动力
随着端侧 AI 变得愈发先进和成熟,移动芯片所面临的设计压力也在不断加剧。一方面,旗舰产品的迭代周期不断缩短,另一方面,向 3 纳米等先进工艺节点的迈进也带来了巨大的设计复杂性。在面积和功耗都极为受限的移动设备上实现 AI 性能的持续增长,对芯片供应商和 OEM 厂商来说是一项艰巨的挑战。
Arm Lumex 计算子系统(CSS)正是在这一背景下诞生的。它代表了 Arm 从提供独立 IP 向提供集成式平台的一次关键转变。通过将预先验证和优化的 CPU、GPU、系统 IP 与生产就绪的 3 纳米物理实现方案相结合,开发团队可以根据自己的需要将这些模块单元进行组合,开发自己的芯片产品,从而加速产品上市进程。
新一代 Arm Lumex 平台丨来自:Arm
作为一个为 AI 优先时代重新设计的模块化平台,Lumex 包含了多个协同优化的核心组件:全新的 Armv9.3 C1 CPU 集群,搭载为 AI 加速而生的 SME2 技术;新一代的 Arm Mali G1-Ultra GPU,带来了桌面级的硬件光线追踪能力;以及全新的系统 IP,用以确保数据高效流转,消除性能瓶颈。
在这套完整的计算子系统中,扮演着「计算大脑」核心角色的,便是全新的Arm C1 CPU 集群。该集群由旗舰性能的C1-Ultra、次旗舰C1-Premium 及持久高能效的 C1-Pro、极致能效C1-Nano 构成,可进行灵活组合以应对多样化的计算负载。然而,在众多升级之中,最值得关注的变化,是其原生集成的第二代可伸缩矩阵扩展技术(SME2)。
要理解 SME2 的重要性,首先需要明白现代 AI 模型,尤其是驱动生成式 AI 的大语言模型(LLM),其运算核心本质上是海量的矩阵乘法。过去,CPU 处理这类并行计算任务的效率相对较低,因此需要将任务「卸载」给专门的 AI 加速器,如 NPU(神经网络处理单元)。这一过程虽然有效,但数据的搬运和调度不可避免地会引入额外的延迟和功耗。
SME 的出现,正是为了从根本上解决这一问题。它并非一个外部「插件」,而是在 Armv9-A架构中引入的指令集架构 (ISA) 扩展。这使得 CPU 核心本身就获得了高效执行矩阵运算的原生能力。从技术演进上看,这是 Arm 在 CPU 并行计算能力上的一次飞跃,经历了从 SIMD(单指令多数据流,如 Neon 技术)到 SVE(可伸缩矢量扩展),再到如今专为矩阵运算优化的 SME/SME2。
这种原生能力带来的提升是显著的。根据 Arm 公布的数据,在 SME2 技术的加持下,Arm C1 CPU 集群的AI性能相较于上一代提升高达 5 倍,同时实现了 3 倍的能效优化。这意味着 AI 应用不仅响应速度有了质的飞跃,对于极为宝贵的移动设备电量也更为友好。
这些数据在实际应用场景中得到了验证:在处理本地语音识别任务(Whisper base 模型)时,延迟降低了 4.7 倍;在运行聊天机器人(Gemma 3 模型)时,AI 性能增长了 4.7 倍。在模型上生成音频(Stable Audio)时,速度提升了 2.8 倍。
SME2 在不同 AI 场景工作负载的效率提升丨来自:Arm
这种性能跃升,让以往可能需要数秒等待的 AI 交互,变得更加「瞬时」。对于需要即时反馈的 AI 助手、实时翻译、代码生成等场景而言,消除延迟是提升用户体验的关键。SME2 让 CPU 有能力直接处理这类对延迟敏感的任务,从而改变了移动 SoC 内部的异构计算分工模式,赋予了芯片设计师更大的灵活性。
为了让这一强大的硬件能力能够被软件生态无缝利用,Arm 还提供了 KleidiAI 软件库。它与主流的 AI 框架(如 PyTorch, TensorFlow, MNN, onNX Runtime)深度集成,开发者无需重写或修改上层应用代码,就能自动调用 SME2 能力实现加速。这种软硬协同的策略,极大地降低了新技术的使用门槛,确保了当搭载 Arm Lumex 平台的设备上市时,海量的现有应用能够第一时间享受到性能红利。
可以说,SME2 的出现正深刻地改变着 CPU 在终端 AI 计算中的角色。它让 CPU 从一个传统的通用计算与控制单元,演变为一个同样擅长处理 AI 负载的高效处理器,为未来更复杂、更庞大的 AI 模型在手机等终端设备上流畅运行,铺平了坚实的道路。
02
AI 如何重塑 GPU,以及移动游戏的未来
如果说 CPU 的进化是为终端 AI 提供了「通用算力」的坚实基础,那么全新的 Mali G1-Ultra GPU 的变革,则更像是一场由 AI 技术深度赋能的、针对移动游戏体验的全面升级。
说到 GPU,今天很多人第一时间会想到英伟达的超级 AI 计算芯片。但在智能手机等移动设备上,GPU 虽然也处理一部分 AI 工作负载,但其核心使命依然是在图形计算领域,为用户提供画面更好、运行更流畅的内容体验。Arm 的思路,正是利用 AI 技术对移动端的游戏体验进行一次彻底的增强。
第一个层面,是用硬件光线追踪技术,为移动游戏画质带来质的飞跃。光线追踪通过模拟真实世界的光线路径,能够生成极为逼真的阴影、反射和全局光照效果,是近年来 PC 和主机游戏画质革命的核心。Mali G1-Ultra 集成了全新的第二代光线追踪单元(RTUv2),这是一个专为光线与几何体求交运算而设计的独立硬件单元。
RTUv2 的光追表现提升丨来自:Arm
相较于软件模拟,专用硬件的效率呈指数级提升,带来了高达 2 倍的光追性能跃升和 40% 的帧率提升。这意味着《原神》、《暗区突围》这类追求极致画质的手游,未来将能实现媲美桌面级的动态光影效果,从而进一步模糊手游与 PC/主机游戏的视觉界限。
第二个层面,也是更具想象力的一点,是用AI来「欺骗」眼睛,打破性能与画质的传统桎梏。现代大型游戏对 GPU 的渲染压力极大,要在有限的功耗下同时实现高分辨率和高帧率几乎是不可能的。为此,PC 端诞生了 DLSS、FSR 等 AI 超分辨率技术,其核心思想是让 GPU 以较低分辨率渲染画面,再通过 AI 模型「脑补」出高分辨率的图像。Arm 也推出了自己的解决方案——Arm ASR(Accuracy Super Resolution)。这是一种基于时域(Temporal)的超分技术,它会分析前后多帧图像的信息,智能地重建出细节,从而在大幅降低 GPU 负载的同时,保持甚至提升图像质量。
这种「AI 插帧」和「AI 分辨率增强」技术的引入,对于移动游戏而言意义非凡。它意味着游戏可以以更低的功耗运行,延长续航;或者在同样的功耗下,达到更高的帧率,带来更流畅的体验。对于开发者而言,他们可以更从容地加入更复杂的特效,而不必担心手机「带不动」。AI 在这里扮演的角色,是打破硬件物理极限的「魔法师」。
第三个层面,是对传统图形性能的持续精进。Mali G1-Ultra 的整体图形性能也得到了系统性提升,在《暗区突围》、《原神》等流行游戏中,实现了 17% 至 25% 不等的性能增长。这得益于多项架构改进,例如引入「双堆叠着色器核心」来加倍内部带宽、减少拥塞,以及「图像区域依赖(IRD)」智能调度技术,使 GPU 能并行处理屏幕的不同区域,在复杂场景中显著提升效率。
综合来看,Arm 新一代 GPU 的进化路径,与桌面级 GPU 的发展方向高度一致:它不再仅仅是一个被动执行渲染指令的图形处理器,而是越来越多地借助 AI 的能力,主动地去优化和创造更好的视觉体验。硬件光追负责提升画质上限,AI 超分和插帧负责优化能效比和流畅度,传统的性能提升则作为这一切的基础。三者结合,共同构成了下一代移动游戏的技术基石。
03
AI 向终端迁移,Arm 的选择与未来
通过 CPU 与 GPU 的协同,并结合全新的系统 IP,新一代 Arm Lumex 提供了一套经过验证的、软硬结合的完整解决方案。它让不同类型的 AI 与图形负载,都能在最合适的处理单元上以最优效能运行。
今天,AI 从云端向终端大规模迁移正在成为重要趋势。这一趋势的背后,是算法的进步、制程工艺的演进,以及如今,底层计算架构的革新。Arm Lumex 正是补上了其中最关键的一块拼图,为解决终端算力瓶颈提供了可行的答案。将 AI 计算更多地放在终端,不仅能为用户带来更低的延迟、更好的隐私保护和更深度的个性化,也能降低开发者对云端服务器的依赖和成本,从而催生出真正意义上「AI 原生」的全新应用。
Arm 自身也清晰地认识到了这一历史性转变,而这种转变最直观地体现在其全新的产品命名体系上。过去,我们熟悉 Arm 是通过其一个个独立的 IP 核代号,例如代表旗舰性能的 Cortex-X 系列 CPU、主打能效的 Cortex-A700 系列 CPU,以及 Mali 或 Immortalis 系列的 GPU。芯片设计公司就像攒电脑一样,从 Arm 的货架上挑选这些独立的「零件」,自行进行集成、验证和优化。
如今,Arm 开始交付高度集成的「计算子系统(CSS)」。为了体现这一变化,命名规则也焕然一新。首先,针对不同市场推出了平台品牌,如面向移动端的 Lumex、面向 PC 的 Niva。
其次,平台内的组件命名也变得更加系统和直观。例如,CPU 集群被统一命名为C1,而不再使用 Cortex。集群内的核心则用 Ultra、Premium、Pro、Nano 这样的后缀来清晰地划分性能等级。曾经的 Cortex-X 系列旗舰核,如今演变成了 C1-Ultra;曾经的 Cortex-A700 系列能效核,则对应 C1-Pro。
GPU 的命名也遵循了这一逻辑,旗舰产品直接命名为 Mali G1-Ultra。这种从复杂的数字编号到清晰的层级化命名的转变,让外界能更容易地理解其产品布局,也凸显了 Arm 如今更强调平台整体的性能表现,而非单个 IP 的孤立指标。
展望未来一到两年,我们有理由期待,搭载Arm Lumex 架构的旗舰芯片将陆续问世。硬件的成熟,必将为软件的创新提供肥沃的土壤。届时,我们或许会看到终端 AI 应用的一次集中爆发:一个能理解屏幕上下文、无需联网就能随时响应的智能个人助理;一款在任何场景下都能流畅进行实时音视频翻译的应用;手机相册内建的、强大的 AIGC 工具,可以随手创作和编辑图像;以及画质足以媲美游戏主机的次世代手机游戏。
Arm Lumex 平台的发布,是终端 AI 发展蓝图中的一块关键技术拼图。它为整个移动生态提供了一套强有力的基础工具,去构建下一代智能体验。当技术的基础设施准备就绪,一个更有想象力的应用时代或许即将开启。
*头图Arm
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你如何看待 Arm
新一代 Lumex CSS 平台?
追觅科技称「破产」传闻均为谣言,创始人拿 50 亿元回购老股。
点赞关注极客公园视频号,