当前位置: 首页 » 资讯 » 新科技 » 正文

上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值丨GAIR 2025

IP属地 中国·北京 雷峰网 时间:2025-12-12 16:11:21



将 Key 跟 Value Cache 按照不同的方法压缩,可以让模型不掉点。

作者丨张进

编辑丨林觉民

目前,不同大模型厂商发布的大语言模型在处理超长上下文方面已经有显著突破,最高的已能支持数百万 Token 的输入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百万Token(1M)级别的超长上下文处理能力。

但是这场有关提升大模型上下文长度的“军备赛”依然不会停止,这是一项巨大的工程与效率之战。因为超长下文为模型智能提供了最广阔的发挥空间——在处理如金融、法律、医疗等领域的长语境任务时表现更好。所以谁能率先突破更长上下文处理能力,便有机会创造出更大的商业与技术价值。

胡侠团队便针对这一目标提出了一项最新研究方案——“通过有损计算(Lossy Computation)来提高大语言模型的推理效率”。这项研究的基本思路是,利用大语言模型对来自低精度计算等“有损”操作产生的噪声具有极强鲁棒性这一特点,主动引入可控的、不损害性能的信息损失,以换取显著的效率提升。

大模型中的“有损计算”是通过有选择地牺牲一部分精度来大幅降低计算或者存储成本,从而提升推理效率,主要围绕模型参数量化、KV Cache 压缩、模型剪枝与知识蒸馏等核心路径展开。

胡侠认为,大语言模型虽已实现类人对话能力,但在处理医疗领域长篇文献信息提取等长语境任务时,面临着“预训练长度限制”与“推理内存需求激增”的双重挑战。

针对这两项挑战,团队提出的“通过有损计算(Lossy Computation)来提高大语言模型的推理效率”方案,实现了两项关键技术突破:一是在算法层面,通过粗化远距离标记的位置信息,成功将大语言模型的语境长度扩展至原有水平的 8 倍;二是在系统层面,将过往标记的中间状态(KV Cache)量化为 2 比特数字,实现了 8 倍内存效率的提升和 3.5 倍时钟时间加速的重大进展。

胡侠是人工智能领域的国际知名学者,长期从事数据挖掘、机器学习和人工智能研究,目前是上海人工智能实验室主任助理、领军科学家,曾担任美国莱斯大学正教授、数据科学中心主任,亦是AIPOW公司联合创始人兼首席科学家。其主导开发的开源系统 AutoKeras 成为最常用的自动机器学习框架之一(超过 8000 次 star 及 1000 次 fork),开发的 NCF 算法及系统(单篇论文被引用超 8000 余次)成为主流人工智能框架 TensorFlow 的官方推荐系统,主导开发的异常检测系统在通用、Trane、苹果等公司的产品中得到广泛应用。


胡侠

关于这两项关键技术的相关细节以及应用前景,近日我们跟胡侠教授聊了聊,以下内容经过不改变原意的编辑、整理:

01

从模糊的上下文位置信息以及

模糊的 KV Cache 两点入手做“有损计算”

雷峰网:请您先简单介绍下"通过有损计算实现高效大语言模型推理"的具体思路?

胡侠:我们根据大语言模型对来自低精度计算等"有损操作"产生的噪声具有极强鲁棒性这一特点,主动引入可控的、不损害性能的信息损失,能够极高地提供推理效率,实际上是用精度换取效率的思路。

我们的"有损计算"主要实施方式是两种,一是在算法层面,不要用上下文精确的相对距离来进行计算,而是通过粗化远距离标记的位置信息,成功将大语言模型的语境长度扩展至原来水平的 8 倍;二是在系统层面,将过去令牌的中间状态(KV Cache)做相应的量化,量化为 2 比特数字,可以实现 8 倍内存效率提升和 3.5 倍实际速度加速,且不影响模型性能。

雷峰网:“有损计算”的灵感是否部分源于对大模型本身作为一种“有损世界压缩器”的理论认知?

胡侠:整个方案的灵感来源于深度学习,深度学习中有两个重要的发现。一个是模型的参数量实际上比模型的精度更重要,我们做了很多实验,其中一堆实验都表明相对大的模型比相对精确的模型,它的推理无论是效率还是准确度来讲都更好。

第二个重要发现是在深度模型中,当我们把很多参数删掉以后,模型的准确率损失非常小。

于是我们就想到了怎样从模糊的上下文信息以及模糊的 KV Cache 这两点入手做有损计算。具体举个例子,比如我们读书时,当我们试图记忆上下文,比如想知道上一章出现了一个什么故事,但我们不需要知道这个故事发生在第 265 个字之前还是第 257 个字之前,我只需要知道大概两三百个字之前出现了这么一个故事就行了。

雷峰网:您的"有损计算"方案主要通过两种方案,其中通过粗化位置信息来扩展上下文,这种粗化策略是静态,还是根据文本内容动态调整的?

胡侠:都不是,它实际上是根据当时上下文的需要进行动态调整的。

雷峰网:第二种方法是将 KV Cache 压缩到 2 比特,这是一项非常激进的优化,在这个过程中您以及您团队遇到最大的挑战是什么?

胡侠:整个研究最大的挑战就是压缩到 2 比特以后,在这种低精度表示的情况下是否还能够让模型保持相应的准确率,所以必须通过大量实验来解决。

虽然我们在实验环境下压缩到 2 比特是可行的,但在现实应用中很少有人这么做,工业界主流的优化手段例如 DeepSeek 是压缩到 8 比特,在实际应用中压缩到 4 比特已经非常激进了,2 比特现在更多还是一个实验室的结果。

压缩能够提高模型的工作效率,这已经形成了广泛共识,压缩方法是最大的挑战,所以我们的工作最大的贡献就是对 Key Cache 和 Value Cache 的压缩方式是不一样的

雷峰网:压缩 KV Cache 后,能实现什么价值?

胡侠:KV Cache 是大模型训练和推理中最重要的一个中间存储状态,KV Cache 直接跟 GPU 的内存相关,例如A100 80GB,其中的 80GB 就是它的内存,而 80GB 当中可能有 90% 以上的用途都是用来存 KV Cache,它是计算中一个最重要的中间存储计算工具。

如果从 16 比特压到 2 比特,就相当于压缩了近 10 倍,就相当于能够让 80GB A100 的 GPU 增加了 10 倍的存储量,这就非常有价值了,因为一块普通的 GPU 就是两三万美金,如果能增加 10 倍存储量的话,粗算下来相当于把 2 万美金的 GPU 直接增值到 20 万美金。

雷峰网:这两个方法主要在哪些模型上实验过?

胡侠:我们主要的结果是在 llama 上做的。两篇文章都是 2024 年发的。

雷峰网:您团队开发的 AutoKeras 等开源项目已被广泛采用。对于这项有损计算技术,您是否也计划通过类似的路径来推动其工业界采纳?

胡侠:已经有很多主流的开源软件包都在使用了,像 hugging face 的 transformer,llama.cpp 都在使用这两个方法。

雷峰网:您的方案跟当前其他一些推理方法,比如混合专家模型 MoE,模拟计算等,在哲学和技术路径有和根本不同?

胡侠:哲学上是差不多的,有句话叫 no free lunch,我们得到的是它的效率,损失的是精度,就看损失的精度会不会影响模型的准确性。但是我们追求的并不是模型的精度,而是最后的准确率。所以哲学上都是通过一些方法来让模型效率更快,在快的同时还不掉点,即准确率还不会下降。

技术上就完全不一样了,MoE 是通过 sparsity(稀疏性)来解决问题。举个例子,比如你读篇文章,sparsity 意味着有些词就完全不读,删掉,而我们的粗化位置信息方法则是都要读完,但是读的非常快,不用去记准确的位置,我只知道它可能在 1~10 之间,20~30 之间,但不需要去记位置是 5 还是 16。

02

“有损计算”在模型处理不同任务的准确率不同

雷峰网:如果模型在生成过程中突然需要回顾一个之前被判定为“不重要”并丢弃的信息,您的算法如何应对这种“大海捞针(Needle- in-a-Haystack)”的失败风险?

胡侠:模型不用非要去看之前的绝对位置,所有的模型的目标都是在最后生成正确的答案即可。

雷峰网:该“有损计算”方案对于模型处理不同任务的影响是相同的吗?

胡侠:现在我们的方案更多是针对语言大模型,但对于多模态大模型或者其他智能体的效果是不同的,其他的我们也没有实验去支撑,所以很难讲效果会好还是不好。但从机理上来讲,我们大概的思路就是用精度换效率,但这个损失的精度并没有损害到模型的准确率。所以从大的逻辑上来讲对很多任务应该没有太多影响,但具体任务也要具体分析。

雷峰网:从柯氏复杂度和最小描述长度的角度看,训练大模型是寻找数据背后的最短程序,那么您认为在推理阶段进行有损计算,是否可以理解为在特定任务和上下文约束下进一步寻找“最短的运行时程序”?

胡侠:我觉得可以这么讲,这个讲法对我来说还挺新颖。

雷峰网:如何评估并确保这些“有损操作”没有过度?

胡侠:这是个很好的问题。我们更多是用大量实验来看是否过度,比如说现在常见的是 16 比特,究竟要压缩到 8 比特、还是 4 比特、还是 2 比特,这就要根据实际需求来判断,因为模型准确率的下降曲线在不同的任务上也是不同的。当实验时模型的准确率已经开始大幅下降了,就压过头了,就不能再压了。

雷峰网:您提到压缩时,模型准确率的下降曲线在不同任务上不同,是否可以举例在哪些任务上出现明显不同?

胡侠:我们实验比较多的任务,包括多模态的任务、classification 的任务,主要是回答问题,即 chatbot 的准确率在压缩到 2 比特的时候不会掉点,但是可能用来做生成程序比较困难。我们的有损方法对生成程序这种对精度要求非常高的任务可能会影响其准确性,我们没做相应的实验,但我感觉可能比较困难。

雷峰网:经历了多少次实验才发现将 KV Cache 压缩到 2 比特的时候掉点很少?

胡侠:很难讲,因为这个项目也不是凭空从头开始做的,也是基于我们之前很多其他工作积累出来的。我们在通过不同方式跑通大模型的过程中不断做各种实验,然后发现了这个现象,但我们也不是第一个做压缩的人,做压缩的人很多。但我们主要贡献了一种新的压缩方法,就是 Key 跟 Value 这两种 Cache,所以叫它 KV Cache,之前大家都用同一种方法来压缩这两种 Cache,但我们比较创新地将 Key 跟 Value 按照不同的压缩方法压缩,可以让它在 2 比特的时候掉点非常少或者几乎不掉点,这是最大的一个贡献。

雷峰网:那有没有实验证明压缩到 1 比特的时候,开始出现大的掉点?

胡侠:不可能 1 比特,1 比特就相当于只用 0 和 1 来表示,整个矩阵就是 0、1,信息量太少了。

03

该“有损方案”应用的潜力如何

雷峰网:在法律、医疗这种对准确性要求极高的场景,您的有损计算方案是否完全不能应用到这些场景?

胡侠:实际上,法律跟医疗没有大家想象的对准确性要求那么高,因为它还是基于大量统计信息,比如要判断某个人是否患有某种疾病,信息来源非常多,这就是为啥中医、西医都可以判断有没有病,做血检也可以。所以不需要那么多的信息就可以做出非常精准的判断了。

这跟大家想象的可能不太一样,反而需要精确地控制的比如说做一道数学题,写一个程序,而判断一个人有没有什么疾病,在多数情况下数据好的话是一个比较简单的任务。

雷峰网:您的有损计算方案可以应用到哪些场景?

胡侠:现在主要是 chatbot,我们在医疗健康领域应用的是一个基于罕见病的问诊系统,如果一个人出现一些症状,他是否可能有某种罕见病就可以问这个系统,效果还是非常好的。医疗领域现有的系统、有关罕见病的数据创建得特别少,因为一个医生没办法囊括几千种罕见病,但是大模型可以,而且具有了长上下文能力的大模型能够做得更好。

雷峰网:您的研究成果是否考虑了与特定硬件(如内存计算、低精度AI芯片)的协同设计?要发挥最大潜力,是否需要硬件层面的相应变革?

胡侠:现在还没有考虑硬件。但 KV Cache 存在于 GPU 上,实际上是专用于 GPU 的一种方法,这个层面是考虑了硬件的。

雷峰网:如果推理阶段我们可以丢弃 80% 的信息而不影响效果,这是否反向说明,目前的模型架构在预训练阶段就存在巨大的效率浪费,未来的架构是否应该直接把这种稀疏性设计在预训练阶段,而不是留给推理阶段来补救?

胡侠:这倒是一个好问题,你可以这么讲,可能有一个新的架构会更好地利用这些信息让预训练变得更高效,而不光是推理阶段。

雷峰网:您的这个研究是否对于大模型部署到手机上或者笔记本电脑等端侧的意义更大?

胡侠:很难讲,实际上现在不管用 DeepSeek 还是其他大语言模型,不知道你注意到没,点了发送键后,还是要等好一会儿才会出结果,原因就是它推理太慢了,所以在 server 端还没解决推理慢的问题,还没到研究是否到端侧更有用的地步。

雷峰网:您认为有损计算的下一个前沿会是什么?

胡侠:我认为更多的是比如 2 比特能不能真的应用到实际中,什么情况下能用,什么情况下不能用,现在还不是特别清楚。还有就是理论研究得跟上,现在更多是实验型的研究。从哲学上来讲有太多可以有损的地方,但具体一个系统的实现,从设计出来到最后落地哪些地方可以有损,哪些不能有损,这其中还有蛮多可以做的事情。

雷峰网:您的高效推理方案是“即插即用”的还是要针对特定的模型甚至特定的垂直领域数据进行额外的微调呢?

胡侠:它好就好在是“即插即用”的,而且实现的原理非常简单大家都能理解,因为这些因素现在用户很多。

本文作者关注AI相关的一切。欢迎+作者vx:IFLOW2025 交流。

第八届 GAIR 全球人工智能与机器人大会

12月12日-13日,在深圳博林天瑞喜来登酒店三楼宴会厅,第八届GAIR全球人工智能与机器人大会,也将汇聚上百位嘉宾和数千位专家,开设四个主题论坛与两个闭门会议,聚焦大模型、AI算力、世界模型、数据&一脑多形、AI硬件等多个议题,共同探讨AI最前沿实践,折射产学研共建的智能未来。

本次大会由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓蕊教授任大会主席。会议为期两天,以下为大会嘉宾。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。