当前位置: 首页 » 资讯 » 新科技 » 正文

被大模型“忽视”两年的CPU,可能要靠OpenClaw翻身了

IP属地 中国·北京 编辑:柳晴雪 TechForWhat 时间:2026-03-25 02:17:00

作者 | 常棣

编辑 | 葛覃

AI时代最大的误解之一,就是CPU已经不重要了。

想想也颇令人感慨,从1971年问世以来,CPU几乎统治了整个IT产业几十年,而GPU满打满算也不过二十余年,早期还主要局限于游戏领域。仅仅大模型这几年,让大众对GPU的认知瞬间放大,甚至超过其原本的作用。

确实,以大模型为代表的训练和推理业务负载,需要海量GPU,却并不意味着CPU失去了主场地位。无论云数据中心、企业IT系统,还是个人终端设备,绝大多数计算任务仍然依赖CPU完成,其依然当前是算力体系的主体,是看不见但不可或缺的底层支撑。

一个稍反常识的认知是,随着AI从Chatbot进入智能体的新阶段,CPU的角色不仅没有降低,反而被重新放大。

OpenClaw就是一个实证,“全民养龙虾”让行业内外都更清晰地看到,智能体推高的不仅是GPU需求,还有CPU以及内存、NVME硬盘、网卡等各部件的需求。

从长期看,上层应用与底层算力之间,总是呈现一种循环进化的节奏,应用推动算力升级,算力又打开新的应用边界,进入智能体时代的CPU,会不会再被重新发明。

答案,也许就在Agentic AI应用的一次次迭代中。

Agentic AI时代,CPU“当爹又当妈”

在早期的大模型问答式AI中,计算需求呈现出典型的脉冲式特征,用户发起请求,GPU在短时间内集中调度算力完成推理,随后迅速归于平静。整个过程更像一次高强度冲刺,算力几乎全部集中在模型前向推理的过程。

但在Agentic AI的世界里,计算不再是一次性的。Agent需要长期驻留、持续执行任务、维护状态,并与外部环境不断互动。算力形态也因此从爆发式推理,转向长时间在线运转。

这种需求并不是GPU所擅长的领域,真正支撑Agent系统的核心,往往是CPU。例如执行环境的隔离与调度,本质上依赖轻量级虚拟化机制,为每一个Agent创建独立运行空间。沙箱创建、进程调度、系统调用等一系列看似细碎的工作,几乎全部由CPU完成。

当Agent数量不多时,相关的消耗只是普通的系统开销。而当云端同时运行成千上万个Agent时,CPU的核数、调度能力、内存带宽以及缓存体系,就会变得至关重要。

换句话说,在智能体的算力体系里,GPU更像短跑运动员,而CPU更像马拉松选手,它不需要每一秒都爆发,但必须稳定、持续地运行。

有趣的是,CPU不仅要完成自己的“本职工作”,还不得不为GPU分担不少额外任务,多少有点“当爹又当妈”的意味。

一个典型例子,就是大模型上下文的处理。AI的上下文长度从早期的几千token扩展到百万级别,模型推理过程中需要保存的KVCache规模也随之急剧增长,这些缓存通常需要存储在GPU显存中,而GPU使用的片上内存显存容量有限,成本也极其昂贵。

于是,行业逐渐采用一种新的架构思路:让CPU内存成为GPU的“第二显存”。在这种架构下,大量KVCache会被卸载到CPU主内存中,GPU只保留当前计算所需的数据。CPU需要在GPU推理过程中进行异步预取,通过PCIe或CXL互连链路与GPU协同工作,确保数据在真正需要之前就已经到达显存。

这本质上是一种典型的存算分离设计,例如DeepSeek提出的Engram architecture,就采用了类似思路,相对应的是,CPU承担的压力正在不断上升。

当然,CPU“当爹又当妈”的状态,很可能只是一个过渡阶段。当前智能体应用仍然处在早期阶段,上层应用对底层算力的需求仍在快速演化。可以预见,在未来很长一段时间里,CPU架构本身也将迎来新一轮剧烈变化。

智能体应用的“三座大山”

如果说OpenClaw让很多人第一次看到了Agent的潜力,那么同样明显的是,智能体距离真正的大规模落地,还有几座必须翻过去的“山”。

第一座山,是Token资源利用率依然偏低。

在Chatbot时代,一次对话通常只是单轮或少数几轮交互,Token消耗相对可控。对比之下,Agent的运行方式完全不同,一个任务往往被拆分为多个步骤,执行时间甚至可能达到小时级。每一步都可能触发模型推理,而中间产生的上下文、工具返回结果等信息,也会不断写入新的Token上下文。

随着任务链条变长、复杂度提升,Token消耗几乎呈指数级膨胀。很多开发者在实践中很快发现,一个看似简单的自动化任务,最终消耗的Token远高于一次普通对话。一些深度使用者每天消耗的Token已经达到上亿级别,对应成本可能达到数百甚至上千元。

因此在业内逐渐形成一种共识:Agent的问题,未必是算力问题,更像是Token经济问题。

这也是为什么越来越多团队开始尝试新的技术路径,比如任务压缩、结构化记忆、上下文裁剪,或者把部分逻辑迁移到本地程序执行,以减少Token消耗。

第二座山,是跨会话记忆的衔接问题。

理想中的智能体,应该像一个真正的助手,记得你的习惯,理解你的历史任务,并能够在新的工作中复用过去积累的经验。

现实却远没有这么理想。大模型的记忆本质上依赖上下文窗口,而上下文窗口天然是短期的,一旦会话结束,很多信息就会丢失。

如果希望Agent具备长期记忆,就必须依赖外部系统,例如向量数据库、知识库或本地文件存储。问题在于,这些记忆往往是碎片化的,如何让Agent在新的任务中准确理解并利用历史会话沉淀的知识、用户偏好以及执行状态,仍然是一个非常困难的问题。

不少Agent系统虽然引入了记忆模块,但在实际运行中,经常会出现记住了却用不上或者检索到了却理解错误的情况。因此,围绕长期记忆架构的探索正在迅速增加,例如分层记忆结构、结构化任务日志以及用户画像系统等,试图让Agent逐渐具备真正意义上的长期记忆能力。

第三座山,则是轻量化部署方案依然稀缺,尤其是在国产算力环境中。

目前不少Agent框架在实验环境中表现不错,然而,一旦进入企业生产环境,问题就会显现出来,依赖复杂、算力需求高、部署流程繁琐。

在国产算力环境下,该问题更加突出。许多Agent工具默认围绕国外云服务和算力生态设计,而在国产算力平台上,往往缺少成熟的开箱即用方案。很多企业即便对Agent技术很感兴趣,也需要投入大量工程成本去适配算力环境、搭建运行框架、维护模型服务。

从这个角度看,今天的智能体生态仍然处在工程探索阶段。技术能力已经初步具备,但要真正形成稳定、低成本、可规模化部署的应用体系,还需要跨越Token效率、记忆体系以及部署架构三座大山。

也许正因为如此,OpenClaw一夜爆发之后,从底层芯片到上层应用,整个产业链都在极速行动、反复迭代,试图定义下一代软件形态。

鲲鹏:更适合智能体应用的CPU

智能体让CPU重新回到舞台中央,一个新的问题也随之出现,什么样的CPU,更适合运行智能体?

华为鲲鹏计算首席解决方案架构师魏彬提到,未来“养龙虾”需在单颗CPU上承载成千上万智能体线程,对通算的架构设计、资源隔离与安全保障能力提出极高要求。

在智能体应用场景中,ARM架构相比传统x86,展现出更适合长时在线和多任务并发的特性。譬如能效比,ARM架构在设计上更注重性能功耗比,在运行成百上千个轻量Agent时,能显著降低电力和散热成本,运营效率优于x86。

此外,智能体通常采用容器化或沙箱化部署,每个Agent占用少量计算资源却数量庞大。ARM服务器普遍具备高核心密度,64核、96核甚至128核的配置能够支撑大量轻量任务并发运行,而x86虽单核性能更强,但在这种负载模式下资源利用效率较低。

智能体运行过程中还频繁涉及向量检索、上下文访问、文件读写和网络调用,对内存带宽和IO能力要求高。ARM多核并发访问优化,使其在处理高频数据访问和大规模并发任务时更稳定高效。

结合实践来看,华为自研的鲲鹏处理器正在成为不少Agent部署场景中的新选择,由OpenClaw、OpenViking和鲲鹏服务器构成的组合,逐渐形成了一套较为完整的生产级Agent方案。

其核心思路可以概括为三个关键词:插件补短板、硬件破瓶颈、协同降成本。

首先是记忆能力的补强。OpenViking记忆插件通过引入更精细化的记忆结构和检索机制,它能够提升记忆识别准确度,减少无效Token消耗,并实现更连贯的跨会话记忆调用,使Agent能够稳定支撑长周期任务。

其次是算力层面的性能释放。鲲鹏服务器通过CPU层面的向量检索加速指令,对向量距离计算、寄存器缓存、内存排布以及指令调度进行针对性优化,从而显著提升检索效率。

在软硬协同优化之后,OpenViking的检索能力能够被进一步释放,在保证效果的同时实现更高的算力利用效率。

第三个优势则是部署门槛的降低。与传统AI系统往往依赖复杂GPU集群不同,这套方案可以在相对轻量的服务器环境中运行。例如在鲲鹏服务器上,仅需1vCPU+2GB内存的容器环境,即可完成智能体服务部署。

实际测试显示,这种软硬件协同带来的效果也相当明显:任务执行准确率可提升40%以上,同时输入Token消耗减少90%以上,整体成本在部分场景下甚至可以实现最高10倍的下降。

在近日举办的华为合作伙伴大会上,这种插件+框架+算力的组合,受到广泛关注,其并不仅适用于单一场景,在研发运维自动化、企业客服系统、私有化知识助手以及多智能体协同任务等场景中,都可以实现效果和性价比的平衡。

某种意义上,这也体现了Agent时代算力体系的新趋势,硬件与软件框架深度协同,共同决定智能体系统的效率与成本,而像鲲鹏这样的CPU平台,也正试图在时代变化中,成为更适合智能体运行的基础设施。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。