当前位置: 首页 » 资讯 » 新科技 » 正文

刚刚,华为AI推理大招开源,时延降90%,吞吐提22倍,上下文10倍级扩展

IP属地 中国·北京 编辑:周琳 智东西 时间:2025-11-05 20:06:48

智东西11月5日消息,刚刚,华为正式开源了UCM(Unified Cache Manager)推理记忆数据管理,这是一项针对AI推理加速的关键技术。

▲GitCode项目页面

今年8月12日,华为正式发布了UCM技术,发布会上华为公布,经大量测试验证,UCM可将首Token时延最高降低90%,系统吞吐最大提升22倍,实现10倍级上下文窗口扩展,AI推理性能显著提升。

▲8月12日UCM技术发布,图源:智东西

时隔近3个月,这一技术正式开源,比发布会上预计的9月稍晚。目前UCM在ModelEngine社区开放了基础框架和工具链,开发者可以在社区获取UCM源代码和技术文档。

▲Github项目页面

GitCode开源地址:

https://gitcode.com/ModelEngine/unified-cache-management

Github开源地址:

https://github.com/ModelEngine-Group/unified-cache-management

总体来看,UCM是以KV Cache和记忆管理为中心的推理加速套件,可以提供全场景系列化推理加速方案,通过推理框架、算力、存储三层协同,优化Tokens在各业务环节中流转的效率,破解长序列推理效率低、成本高的难题,以实现AI推理的更优体验、更低成本。其主要服务对象是企业用户。

Agentic AI时代,AI推理的KV Cache容量增长已超出HBM的承载能力。通过一系列算法,UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中自动分级缓存,提升整个系统的效率,一定程度上降低对HBM的需求。

UCM融合了多类型缓存加速算法工具,可分级管理在推理过程中产生的KV Cache记忆数据。

UCM架构包含多个协同工作的关键功能模块,具体如下:

UCM稀疏化模块 (UcmSparsebase):兼容多种稀疏算法的统一基类,负责稀疏KV Cache Block的卸载、加载与计算,实现“零感知”插拔式稀疏化。在不影响整体推理流程的前提下,能够灵活适配不同稀疏算法以提升推理效率。

稀疏化KV管理器 (SparseKVManager):面向算法级定制的KV Cache Block分配总控器,各稀疏算法以多态子类形式将自身分配逻辑注入框架,实现不同稀疏算法策略与推理引擎解耦,满足差异化推理场景需求。

KV Cache存储组件 (UcmKVStorebase):负责提供与外部存储通信的通用接口。该组件支持稀疏算法与存储后端解耦,可无缝对接任意存储系统,同时支持前缀缓存,为数据存储提供了灵活多样的选择。

UCM连接器(UC Connector):桥接KV Cache存储组件与推理引擎,保障数据在不同组件之间的高效传输,实现高可靠的前缀缓存能力。

▲UCM产品架构

图中所有灰色框代表vLLM 0.9.2版本中的现有类,绿色框则代表UCM新增组件。浅绿色框展示了基于此框架未来规划扩展的子类。

基于以上架构,UCM目前具备四个关键能力:稀疏注意力、前缀缓存、预填充卸载、异构PD解耦。

做UCM的动机是什么?

根据GitCode官方信息,当前随着模型尺寸的不断增长,KV缓存也变得越来越大,且越来越稀疏,对于长序列请求来说尤为明显。为了减小GPU显存的使用,主流的方向是将全量的KV数据卸载到外部存储中,而在GPU显存中只保留部分或者被压缩的KV数据。这同时可以减小GPU的运算量,在解码时增加最大生成序列长度和批大小。

有许多种不同的稀疏KV缓存的实现。最新的论文指出,能够最好地适配所有场景和所有模型的方法是不存在的。因此,更好的做法是搭建一套公共的框架,并在此之上接入不同的稀疏化算法,就像KV连接器和PC一样。

根据GitCode官方信息,UCM的核心原理是持久化LLM的KVCache,并通过多种检索机制替代冗余计算。UCM支持前缀缓存(prefix cache,PC),同时提供了多种无需训练的稀疏注意力检索方法,在处理极长序列推理任务时达到更高性能;此外,UCM基于存算分离架构提供了PD分离方案,使得异构计算资源的管理更简单灵活。

结语:应对性能挑战,缓解资源瓶颈

UCM开源或加速AI推理落地

随着边缘和端侧AI的快速发展,AI推理需求快速增长,在Agentic AI时代,AI推理任务愈发复杂,对算力、内存访问效率等方面都提出了更多挑战。

UCM的开源,可以进一步缓解AI推理复杂任务产生的资源瓶颈和性能挑战,给行业提供新的技术路径,加速优秀商用AI推理方案的落地。

标签: ucm 算法 ai 组件 框架 智东西 序列 华为 github kv

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。