当前,AI产业已从“追求模型能力的极限” 转向“追求推理体验的最优化”,推理成为AI下一阶段的发展重心。
推理体验直接关系到用户满意度,也成了衡量模型价值的黄金标尺。
8月12日华为发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本,并已在金融行业内试点应用。
近日,《凤凰周刊》邀请到华为公司副总裁、数据存储产品线总裁周跃峰博士,一起聊聊UCM黑科技将对提升AI推理体验带来怎样的变化。
以下为访谈实录:
《凤凰周刊》:当前在Token经济时代,各行各业都出现了各种AI智能体,AI推理又是智能体做决策和响应的关键,怎样才能帮助这些智能体做更多的运算,包括AI推理将对整个行业带来怎样的影响?
周跃峰:AI实际上有两个过程,第一个就是模型的训练,它主要是培养和训练一个更好的大脑,具备一定的思考能力,它本质上是一个成本中心。另外一个很重要的是推理,推理才是真正地为我们用户产生价值的环节。那如何用最少的基础设施资源提供更好、更优性能的推理服务,是当前最突出的一个问题。
在AI的行业化落地应用过程当中,我们发现有很多问题推不动。比如,我们把一本《红楼梦》放到推理系统里,让它分析一下里边的人物关系,很可能推理系统就推不下去了,因为整部《红楼梦》的上下文太长了。还有就是我们问一个问题,要等很长时间才能够出来结果,这就是推理性能的问题。
当然,解决这些问题,我们可以通过堆巨大的算力、存力资源。但是,如何用更少的资源来获得更好的性能,使AI的商业正循环变好,是当前一个很重要的问题。
《凤凰周刊》:目前我国AI推理处于怎样一个阶段?
周跃峰:我们国家AI的行业化落地正在蓬勃发展,各行各业都开始用起来了。但实事求是地说,我们的推理相对于领先的国家,比如说美国,我们的推理首Token时延、Token的吞吐率等各项指标还是落后于美国的一些推理系统。
具体我们可以尝试用中国头部互联网的一些大模型和美国头部互联网的大模型进行对比,模型的体验感受会有非常明显的差距。这就说明我们在基础设施投入这一块是不如美国一些科技巨头的。
如何在有限的基础设施投入下,让我们的推理性能和推理的商业回报更高,需要我们做系统性的创新。尤其是在AI推理过程当中,用好每一个硬件,对我们来说是当前迫切要解决的一个问题。
《凤凰周刊》:本次发布的UCM在业内产生了很大的影响,被视为一项突破性技术。在目前AI推理过程中,UCM发挥了哪些作用?它对于整个AI产业未来发展将产生怎样的意义?
周跃峰:AI系统和人的思考过程是基本一致的。一个聪明的人,如果分析问题的能力很强的话,一般来说要求他的思维逻辑能力很强。但另外一个很重要的点就是,他的记忆能力也要求很强,就是能够记下来事情,而且可以很快地回忆起来。
本次我们发布的UCM推理记忆数据管理器,实际上就是发挥了这样一个作用。我们知道在一个计算中心当中的记忆体,分为高速的记忆体也就是HBM,还有我们动态内存DRAM,然后就是可以让系统拥有持久记忆能力的专业共享存储,一般是存在SSD当中。记忆体的成本是从高到低的,但是它的性能也是从高到低。如果说我们把所有在分析问题过程当中的上下文记忆,以及暂存的一些数据都放在HBM当中,当然性能会很好,但是整个系统会非常地昂贵,甚至有的时候实现起来也会很难。
UCM把我们在推理过程中的一些很热的、需要快速读取的记忆数据放在HBM当中,相对较热的放在DRAM内存当中,再其次的放在SSD共享存储池当中。这样一个分级缓存的技术可以极大提升整个推理过程当中的效能。
这次我们针对中国银联的推理场景做了尝试和应用,确实印证了这一套算法和软件可以有效地拉宽记忆窗口。同时,让首Token的时延极大降低,也让Token的吞吐率可以极大地提升。
应该说,对于我们国家当前在AI基础设施投资相对没有美国高的情况下,是一个非常好的补充,也为很多企业用比较小的推理硬件系统,来完成相对比较复杂问题的推理提供了便利。
《凤凰周刊》:这些提升大概是一个什么量级的提升?
周跃峰:UCM对普通的推理系统,首Token时延最低可以降低90%,上下文推理窗口可以增大10倍,Token吞吐率可以显著提升2到22倍。从推理场景的实际应用来看,这些指标是非常优异的。
《凤凰周刊》:华为在发布会上还公布了UCM的开源计划,您这边方便透露一下开源背后有哪些战略考量吗?
周跃峰:我们希望中国包括世界上的AI系统,能够尽快地更多地被应用起来。我们尤其希望很多公司、厂商做了AI基础设施投资之后,也有更好的商业回报,这是我们的初衷,所以我们希望UCM这套软件是开源开放的。
我们会在今年9月份将UCM在魔擎社区中开源。同时,我们也会把UCM贡献给VLLM、MindIE等推理框架社区中,让更多的厂商和系统提供商能够用起来。我们不仅仅让UCM能够支持华为的专业数据存储,也可以支持第三方的数据存储,以产生更大的社会经济效益。