当前位置：首页 » 资讯 » 新科技 » 正文

被大模型“忽视”两年的CPU，可能要靠OpenClaw翻身了

IP属地中国·北京 编辑：柳晴雪 TechForWhat 时间：2026-03-25 02:17:00

作者 | 常棣
编辑 | 葛覃
AI时代最大的误解之一，就是CPU已经不重要了。
想想也颇令人感慨，从1971年问世以来，CPU几乎统治了整个IT产业几十年，而GPU满打满算也不过二十余年，早期还主要局限于游戏领域。仅仅大模型这几年，让大众对GPU的认知瞬间放大，甚至超过其原本的作用。
确实，以大模型为代表的训练和推理业务负载，需要海量GPU，却并不意味着CPU失去了主场地位。无论云数据中心、企业IT系统，还是个人终端设备，绝大多数计算任务仍然依赖CPU完成，其依然当前是算力体系的主体，是看不见但不可或缺的底层支撑。
一个稍反常识的认知是，随着AI从Chatbot进入智能体的新阶段，CPU的角色不仅没有降低，反而被重新放大。
OpenClaw就是一个实证，“全民养龙虾”让行业内外都更清晰地看到，智能体推高的不仅是GPU需求，还有CPU以及内存、NVME硬盘、网卡等各部件的需求。
从长期看，上层应用与底层算力之间，总是呈现一种循环进化的节奏，应用推动算力升级，算力又打开新的应用边界，进入智能体时代的CPU，会不会再被重新发明。
答案，也许就在Agentic AI应用的一次次迭代中。
Agentic AI时代，CPU“当爹又当妈”
在早期的大模型问答式AI中，计算需求呈现出典型的脉冲式特征，用户发起请求，GPU在短时间内集中调度算力完成推理，随后迅速归于平静。整个过程更像一次高强度冲刺，算力几乎全部集中在模型前向推理的过程。
但在Agentic AI的世界里，计算不再是一次性的。Agent需要长期驻留、持续执行任务、维护状态，并与外部环境不断互动。算力形态也因此从爆发式推理，转向长时间在线运转。
这种需求并不是GPU所擅长的领域，真正支撑Agent系统的核心，往往是CPU。例如执行环境的隔离与调度，本质上依赖轻量级虚拟化机制，为每一个Agent创建独立运行空间。沙箱创建、进程调度、系统调用等一系列看似细碎的工作，几乎全部由CPU完成。
当Agent数量不多时，相关的消耗只是普通的系统开销。而当云端同时运行成千上万个Agent时，CPU的核数、调度能力、内存带宽以及缓存体系，就会变得至关重要。
换句话说，在智能体的算力体系里，GPU更像短跑运动员，而CPU更像马拉松选手，它不需要每一秒都爆发，但必须稳定、持续地运行。
有趣的是，CPU不仅要完成自己的“本职工作”，还不得不为GPU分担不少额外任务，多少有点“当爹又当妈”的意味。
一个典型例子，就是大模型上下文的处理。AI的上下文长度从早期的几千token扩展到百万级别，模型推理过程中需要保存的KVCache规模也随之急剧增长，这些缓存通常需要存储在GPU显存中，而GPU使用的片上内存显存容量有限，成本也极其昂贵。
于是，行业逐渐采用一种新的架构思路：让CPU内存成为GPU的“第二显存”。在这种架构下，大量KVCache会被卸载到CPU主内存中，GPU只保留当前计算所需的数据。CPU需要在GPU推理过程中进行异步预取，通过PCIe或CXL互连链路与GPU协同工作，确保数据在真正需要之前就已经到达显存。
这本质上是一种典型的存算分离设计，例如DeepSeek提出的Engram architecture，就采用了类似思路，相对应的是，CPU承担的压力正在不断上升。
当然，CPU“当爹又当妈”的状态，很可能只是一个过渡阶段。当前智能体应用仍然处在早期阶段，上层应用对底层算力的需求仍在快速演化。可以预见，在未来很长一段时间里，CPU架构本身也将迎来新一轮剧烈变化。
智能体应用的“三座大山”
如果说OpenClaw让很多人第一次看到了Agent的潜力，那么同样明显的是，智能体距离真正的大规模落地，还有几座必须翻过去的“山”。
第一座山，是Token资源利用率依然偏低。
在Chatbot时代，一次对话通常只是单轮或少数几轮交互，Token消耗相对可控。对比之下，Agent的运行方式完全不同，一个任务往往被拆分为多个步骤，执行时间甚至可能达到小时级。每一步都可能触发模型推理，而中间产生的上下文、工具返回结果等信息，也会不断写入新的Token上下文。
随着任务链条变长、复杂度提升，Token消耗几乎呈指数级膨胀。很多开发者在实践中很快发现，一个看似简单的自动化任务，最终消耗的Token远高于一次普通对话。一些深度使用者每天消耗的Token已经达到上亿级别，对应成本可能达到数百甚至上千元。
因此在业内逐渐形成一种共识：Agent的问题，未必是算力问题，更像是Token经济问题。
这也是为什么越来越多团队开始尝试新的技术路径，比如任务压缩、结构化记忆、上下文裁剪，或者把部分逻辑迁移到本地程序执行，以减少Token消耗。
第二座山，是跨会话记忆的衔接问题。
理想中的智能体，应该像一个真正的助手，记得你的习惯，理解你的历史任务，并能够在新的工作中复用过去积累的经验。
现实却远没有这么理想。大模型的记忆本质上依赖上下文窗口，而上下文窗口天然是短期的，一旦会话结束，很多信息就会丢失。
如果希望Agent具备长期记忆，就必须依赖外部系统，例如向量数据库、知识库或本地文件存储。问题在于，这些记忆往往是碎片化的，如何让Agent在新的任务中准确理解并利用历史会话沉淀的知识、用户偏好以及执行状态，仍然是一个非常困难的问题。
不少Agent系统虽然引入了记忆模块，但在实际运行中，经常会出现记住了却用不上或者检索到了却理解错误的情况。因此，围绕长期记忆架构的探索正在迅速增加，例如分层记忆结构、结构化任务日志以及用户画像系统等，试图让Agent逐渐具备真正意义上的长期记忆能力。
第三座山，则是轻量化部署方案依然稀缺，尤其是在国产算力环境中。
目前不少Agent框架在实验环境中表现不错，然而，一旦进入企业生产环境，问题就会显现出来，依赖复杂、算力需求高、部署流程繁琐。
在国产算力环境下，该问题更加突出。许多Agent工具默认围绕国外云服务和算力生态设计，而在国产算力平台上，往往缺少成熟的开箱即用方案。很多企业即便对Agent技术很感兴趣，也需要投入大量工程成本去适配算力环境、搭建运行框架、维护模型服务。
从这个角度看，今天的智能体生态仍然处在工程探索阶段。技术能力已经初步具备，但要真正形成稳定、低成本、可规模化部署的应用体系，还需要跨越Token效率、记忆体系以及部署架构三座大山。
也许正因为如此，OpenClaw一夜爆发之后，从底层芯片到上层应用，整个产业链都在极速行动、反复迭代，试图定义下一代软件形态。
鲲鹏：更适合智能体应用的CPU
智能体让CPU重新回到舞台中央，一个新的问题也随之出现，什么样的CPU，更适合运行智能体？
华为鲲鹏计算首席解决方案架构师魏彬提到，未来“养龙虾”需在单颗CPU上承载成千上万智能体线程，对通算的架构设计、资源隔离与安全保障能力提出极高要求。
在智能体应用场景中，ARM架构相比传统x86，展现出更适合长时在线和多任务并发的特性。譬如能效比，ARM架构在设计上更注重性能功耗比，在运行成百上千个轻量Agent时，能显著降低电力和散热成本，运营效率优于x86。
此外，智能体通常采用容器化或沙箱化部署，每个Agent占用少量计算资源却数量庞大。ARM服务器普遍具备高核心密度，64核、96核甚至128核的配置能够支撑大量轻量任务并发运行，而x86虽单核性能更强，但在这种负载模式下资源利用效率较低。
智能体运行过程中还频繁涉及向量检索、上下文访问、文件读写和网络调用，对内存带宽和IO能力要求高。ARM多核并发访问优化，使其在处理高频数据访问和大规模并发任务时更稳定高效。
结合实践来看，华为自研的鲲鹏处理器正在成为不少Agent部署场景中的新选择，由OpenClaw、OpenViking和鲲鹏服务器构成的组合，逐渐形成了一套较为完整的生产级Agent方案。
其核心思路可以概括为三个关键词：插件补短板、硬件破瓶颈、协同降成本。
首先是记忆能力的补强。OpenViking记忆插件通过引入更精细化的记忆结构和检索机制，它能够提升记忆识别准确度，减少无效Token消耗，并实现更连贯的跨会话记忆调用，使Agent能够稳定支撑长周期任务。
其次是算力层面的性能释放。鲲鹏服务器通过CPU层面的向量检索加速指令，对向量距离计算、寄存器缓存、内存排布以及指令调度进行针对性优化，从而显著提升检索效率。
在软硬协同优化之后，OpenViking的检索能力能够被进一步释放，在保证效果的同时实现更高的算力利用效率。
第三个优势则是部署门槛的降低。与传统AI系统往往依赖复杂GPU集群不同，这套方案可以在相对轻量的服务器环境中运行。例如在鲲鹏服务器上，仅需1vCPU+2GB内存的容器环境，即可完成智能体服务部署。
实际测试显示，这种软硬件协同带来的效果也相当明显：任务执行准确率可提升40%以上，同时输入Token消耗减少90%以上，整体成本在部分场景下甚至可以实现最高10倍的下降。
在近日举办的华为合作伙伴大会上，这种插件+框架+算力的组合，受到广泛关注，其并不仅适用于单一场景，在研发运维自动化、企业客服系统、私有化知识助手以及多智能体协同任务等场景中，都可以实现效果和性价比的平衡。
某种意义上，这也体现了Agent时代算力体系的新趋势，硬件与软件框架深度协同，共同决定智能体系统的效率与成本，而像鲲鹏这样的CPU平台，也正试图在时代变化中，成为更适合智能体运行的基础设施。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

小程序开发定制优选广东杰里科技，10年技术沉淀，覆盖多领域定制需求，助力企业数字化转型

被大模型“忽视”两年的CPU，可能要靠OpenClaw翻身了

碾压美国！中国AI大模型杀疯了：全球调用量前四全是国产

AI大模型的Token是什么？一个视频带你了解

一夜之间，微信为何失守？

面对AI，你有听到京东、美团们的声音么？

全站最新

小程序开发定制优选广东杰里科技，10年技术沉淀，覆盖多领域定制需求，助力企业数字化转型

被大模型“忽视”两年的CPU，可能要靠OpenClaw翻身了

碾压美国！中国AI大模型杀疯了：全球调用量前四全是国产

AI大模型的Token是什么？一个视频带你了解

热门推荐

小程序开发定制优选广东杰里科技，10年技术沉淀，覆盖多领域定制需求，助力企业数字化转型

被大模型“忽视”两年的CPU，可能要靠OpenClaw翻身了

碾压美国！中国AI大模型杀疯了：全球调用量前四全是国产

AI大模型的Token是什么？一个视频带你了解

一夜之间，微信为何失守？

面对AI，你有听到京东、美团们的声音么？

2025抖音AIGC创作年度报告-抖音

京东“龙虾天团”炸场AI圈！砸千万小时数据押注具身智能

避开“B”“C”选择题京东AI押宝产业侧

鸿蒙智行 9 车齐发！尚界 Z7 同步亮相，22.98 万元起

刚开后门就被炸，微信这波龙虾自助收摊了？

阿里发了个会做生意的Agent，老外已经用它来搞钱了。

小屏手机越来越少，一加15T越卖越贵？

又一脑机接口头部企业入驻外高桥，穹顶科技将设立上海临床和产品工程中心

一年烧掉23个亿，地平线寻求错位突围

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

专题

被大模型“忽视”两年的CPU，可能要靠OpenClaw翻身了

Agentic AI时代，CPU“当爹又当妈”

智能体应用的“三座大山”

鲲鹏：更适合智能体应用的CPU