当前位置: 首页 » 资讯 » 新科技 » 正文

华为UCM AI推理技术上海首发,9月开源引领行业革新

IP属地 中国·北京 编辑:任飞扬 时间:2025-08-13 00:07:10

在人工智能领域的浪潮中,AI推理正逐渐崭露头角,成为推动技术发展的新引擎。近日,一场聚焦金融AI推理应用落地与发展的高端论坛在上海隆重举行,吸引了众多行业精英和技术专家的目光。

论坛上,华为公司的一则消息尤为引人注目。华为副总裁、数据存储产品线总裁周跃峰博士,在会上隆重发布了一项名为UCM推理记忆数据管理器的创新技术。这项技术被看作是AI推理领域的一次重大突破,有望为金融行业带来全新的变革。

UCM推理记忆数据管理器,作为一款专为AI推理加速设计的套件,其核心在于以KV Cache为中心的多类型缓存加速算法工具。通过分级管理推理过程中产生的KV Cache记忆数据,UCM能够显著扩大推理上下文窗口,从而提升推理效率,降低每Token的推理成本。这一创新技术的推出,无疑为追求高效推理体验的企业提供了新的解决方案。

周跃峰博士在演讲中强调,在AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,这标志着Token经济时代的到来。然而,如何在保障流畅推理体验的同时,找到推理效率与成本之间的最佳平衡点,成为了全行业共同面临的难题。UCM推理记忆数据管理器的推出,正是华为针对这一难题给出的答案。

UCM由三大核心组件构成:推理引擎插件(Connector)、功能库(Accelerator)以及高性能KV Cache存取适配器(Adapter)。这三大组件通过推理框架、算力、存储三层的协同工作,共同实现了AI推理的“更优体验、更低成本”。具体而言,UCM能够依托层级化自适应的全局前缀缓存技术,直接调用KV缓存数据,避免重复计算,从而显著降低首Token时延。同时,UCM还能将超长序列Cache分层卸载至外置专业存储,实现推理上下文窗口的10倍级扩展,满足长文本处理需求。

在成本方面,UCM同样表现出色。其智能分级缓存能力能够根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,从而有效降低存储成本。UCM还融合了多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)大幅提升,进一步降低了每Token的推理成本。

华为已携手中国银联率先在金融典型场景开展了UCM技术的试点应用。在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度实现了125倍的提升,仅需10秒即可精准识别客户高频问题。这一成果不仅验证了UCM技术的有效性,更为金融行业的智能化转型提供了有力支持。

论坛现场,华为还正式公布了UCM的开源计划。通过开放统一的南北向接口,UCM可适配多类型推理引擎框架、算力及存储系统。这一举措无疑将进一步推动AI推理生态的繁荣发展,为更多企业带来创新机遇。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。