当前位置: 首页 » 资讯 » 新科技 » 正文

清华大学联合无问芯穹、港中文等机构提出Cache-to-Cache模型通信

IP属地 中国·北京 机器之心Pro 时间:2025-10-29 18:17:06



随着大语言模型的快速进步,为了适应越来越多样的工作场景,模型越来越多在指定场景进行针对性训练,例如代码、数学计算、视觉理解、边缘计算等。而在面对复杂任务与特定场景时,通过多智能体进行探索、决策、信息交换,可以实现相比单智能体更好的综合表现。

在多智能体系统中,现有的智能体多以 Text to Text(T2T)方式进行交流,即通过生成交流文本进行智能体之间的信息传递,而这种方式则会带来信息丢失(多维语义被压缩到一维文字)、语义模糊[3][4]、巨大延迟(逐个 token 生成)三大问题。基于此来自清华大学、无问芯穹、香港中文大学、上海人工智能实验室和上海交通大学的研究团队在论文中创新提出了 Cache to Cache(C2C)方式的信息传递,将模型的 KV-Cache 作为传播媒介,实现了直接的「脑对脑」交流,相比 T2T 的对话交流实现了 3%-5% 的正确率提升以及平均两倍的速度提升,为多智能体系统提供了一种全新的通信范式。

论文的核心贡献在于:

验证了超越文本的模型间通信的可行性提出了以 KV-Cache 作为媒介进行通信的方案 - C2C为多智能体通信提供了新的技术基础



a) T2T 通过显式文本生成传递信息 b) C2C 直接将不同模型的 KV-Cache 进行投影与融合

本工作现已开源,讨论。



代码链接:https://github.com/thu-nics/C2C主页链接:https://github.com/thu-nics论文链接: https://arxiv.org/pdf/2510.03215

背景:现有文本通信的局限性

在面对复杂任务与特定场景时,多智能体系统能够展现出超越单智能体的显著优势。然而,现有的 Text to Text(T2T)极大地限制了模型间的信息交流,尤其是在传递具有丰富语义的上下文时,产生了以下三大问题:

1.信息丢失:作为低带宽的传播媒介,在将信息压缩为一维文本序列并输出时,很容易造成高维语义降维时的信息丢失。

2.语义模糊:自然语言本身包含的模糊表达,尽管 MCP 等智能体交流协议希望可以标准化文本信息 [3][4],但是固定的模版依旧难以满足灵活、开放的协作场景。

3.巨大延迟:T2T 传递采取逐个 token 输出,极大地限制了通信速度。



核心洞见:KV-Cache 的独特优势

KV-Cache 天然包含模型对话过程中的多维语义信息,无需额外二次处理。通过预实验,我们发现:

1. 在相同文本长度下,优化后的 KV-Cache 能够显著提升模型的准确率;

2. 不同模型之间的 KV-Cache 可以进行相互转换与传递,具备良好的通用性;

3. 不同模型针对相同上下文会生成各自独特的 KV-Cache 表示,体现了模型间能力的互补性。

此外,KV-Cache 在并行处理方面具有天然优势,能够精准弥补现有 T2T(Text-to-Text)方式的不足。例如,KV-Cache 可通过投影对不同词元实现完全并行的信息交流,有效避免低效的一维文本输出流程。

基于上述优势,我们团队探索了以KV-Cache为媒介的模型通信方式。实验表明,KV-Cache 不仅拓展了模型间交流的表达空间,还显著提升了效率和可扩展性。



源模型、目标模型以及转换后KV-Cache的t-SNE图



KV-Cache 优化实验

深入解析:C2C 直接语义通信的实现路径


1. Sharer 与 Receiver

团队将提供额外上下文理解的模型定义为 Sharer(分享者),而负责接收完整上下文并结合这些理解生成回复的模型定义为 Receiver(接收者)。




2. 核心机制:C2C-Fuser

C2C 的核心在于 KV-Cache 的融合。为此,我们设计了融合器 F 以及层映射策略 G。

在 prefill 阶段,第 n 层的融合器 F (n) 会用 Receiver 的第 n 层 KV 和 Sharer 的第 G (n) 层 KV 进行融合,生成新的 KV 表示。在 解码阶段,模型则利用融合后的 KV-Cache 和当前前缀,进行自回归生成,实现信息的有效利用。



3. 融合器设计:残差式信息注入

为防止融合过程破坏 Receiver 原有语义,Fuser 采用残差融合结构,分为投影层、动态权重层和可学习门控三部分。

投影层:将两侧 KV 在头 / 通道维度拼接,通过线性投影与特征融合映射到统一表征空间;实现初步的信息整合;动态权重层:用输入感知的 head-modulation 对投影后的各注意力头 / 通道做自适应加权;促使模型可以判断:在何时应当保留 Receiver 的输入,何时应当增强 Sharer 的引导;可学习门控:每层有可训练门控,使用带温度退火的 Gumbel-sigmoid,从开始训练时的可微加权平滑过渡到推理时的 0/1 决策。最终以残差形式与 Receiver 原 KV 相加,保留原始表征;保证了训练的有效性以及 Receiver 输出的稳定性。

这样可以自适应地将 Sharer 的信息以残差方式注入 Receiver,实现更有效的信息整合与传递。

4. 模型对齐:跨模型、跨层级的映射

为保证不同模型(系列、尺寸)之间 KV 表示的兼容性,C2C 引入模型对齐机制。

Token 对齐:将 Receiver 的每个 token 解码为字符串,再用 Sharer 的分词器重新编码;遇到一对多映射时,选取覆盖字符串最长的 Sharer token 以最大限度保障信息精准传递。Layer 对齐(也即层映射策略):采用「末端对齐」策略 —— 先对齐两模型的最顶层,然后按逆序逐层对齐直到较浅模型的第一层,优先保障深层语义的融合传输。

5. 训练框架:专注于 C2C Fuser 模块

在训练过程中,团队冻结 Sharer 和 Receiver 的参数,仅训练 C2C 融合器模块,采用类似 SFT 的 next token prediction 损失。训练流程包括前向传播、KV-Cache 融合,以及最终的监督学习与传播,确保 C2C 能稳定高效地实现模型间的信息传递。

结果与分析:C2C 的性能与效率优势

训练数据:OpenHermes2.5 [14]

为确保泛化能力,团队在通用微调语料库 OpenHermes2.5 [14] 中选取前 50 万个样本来训练 C2C Fusers。

模型组合:

涵盖不同系列(Qwen2.5 [5]、Qwen3 [6]、Llama3.2 [7]、Gemma3 [8] )、不同规模(0.6B~14B)、不同专业领域(通用、代码、数学)以及不同训练阶段(预训练、指令微调)模型。例如,用 Qwen2.5-Math 作为 Sharer,Qwen3-0.6B 作为 Receiver,测试学科知识传递。

基线方法:

T2T:Sharer 生成解析文本,Receiver 接收解析文本以及原问题后进行回答query-level routing:根据问题难度动态选择 Sharer 或 Receiver 回答单模型:Sharer 和 Receiver 分别单独回答

评测基准:

OpenBookQA [9]:考察模型对科学常识和开放性知识推理能力MMLU-Redux [10]:考察多领域、多任务的专业知识理解与综合能力ARC-C [11]:考察复杂科学推理任务C-eval [12]:考察模型在中文环境下的多学科知识与应用能力

整体表现



在主要评测基准上的测试结果,使用Qwen-0.6B作为Receiver

如表所示,C2C 在不同设置和基准上持续提升了 Receiver 的性能。

准确性提升:显著超越个体与文本通信:

针对三种不同的 Sharer,分别观察到 C2C 相比单个 Sharer 平均准确率提升 11.00%、9.64% 和 11.88%。与 T2T 相比,C2C 的平均准确率分别额外提升了 5.36%、4.15% 和 3.06%。

效率增益:延迟大幅降低:

由于省去了中间文本消息的生成,相比 T2T,C2C 在推理时间上分别实现了约 3.46×、1.51× 和 14.41× 的加速。相较之下,query-level routing 更侧重效率,但其准确率一般不超过两个原始模型中的较好者。

值得注意的是,当使用 Qwen3-4B base 作为 Sharer 时,该模型生成的文本有时会忽视指令并超出预期长度,导致文本到文本通信时间显著增长,而 C2C 能绕过该问题。这一设置展示了一个有趣的用例:即使是弱的 SFT 模型,也能帮助强大的预训练基础模型更好地遵循指令。

泛化实验

分别在规模扩展、序列长度扩展与不同模型组合三个层面上进行泛化实验,结果说明 C2C 在三个层面上均能有效泛化,具体实验结果详见正文部分。

消融实验



Single 表示在没有 Sharer 的情况下对 Receiver 进行标准的完整微调;Identical 表示 Sharer 与 Receiver 均为 Qwen3-0.6B 的 C2C 配置。

实验结果说明 C2C 的改进并非单纯来源于增大的可训练参数量或对训练集的过拟合,而是来自异构 Sharer 提供的互补性上下文理解。即便是 Identical 相较于 Single 也有提升,表明 Cache 级别的自我通信(cache-level self-communication)能提供有益的辅助表征,这与在隐空间推理和循环 Transformer 中观察到的效应一致 [15][16]。

未来展望


Cache to Cache 及其思想的应用前景十分广泛,可能的场景包括:

1. 多智能体系统中实现协作效率与效果的大幅提高。例如在一些多智能体系统的应用中,可以进一步提升智能体系统响应与处理速度,适配当前快节奏、多需求的 AI 训练浪潮。

2. 多模态的便捷融合。借助 C2C 可以对齐并融合语言模型、视觉 - 语言模型(VLM)及视觉 - 语言 - 动作(VLA)策略的缓存,使视觉与语言上下文共同驱动更精确的理解与决策执行。

3. 与推理加速方法整合。将 C2C 用于增强推测解码(speculative decoding)、 token 级路由等方法中小模型的表现,进一步降低延迟与推理成本。

4. 隐私感知的云 — 边协作。云端模型将经挑选的 KV-Cache 段传输到边端模型,以在不暴露原始文本的前提下提升边端能力,减少带宽并降低数据泄露风险。

5. 高维语义空间的协作与推理。与隐空间推理结合后可以实现完全在高维语义空间的模型推理与沟通协作,有望进一步提升系统工作效率,减少计算开销。

本文提出的 Cache-to-Cache(C2C)范式,成功实现了大模型间高效、通用的直接语义通信。其在性能、效率与泛化性上的优异表现也让我们期待,在智能体时代,C2C 有潜力成为构建新一代多智能体系统的关键使能技术之一,推动其交流方式从低效的文本中转迈向高效的「思想同步」。

参考文献

[1]: Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V Chawla, Olaf Wiest, and Xiangliang Zhang. Large language model based multi-agents: A survey of progress and challenges. arXiv preprint arXiv:2402.01680, 2024.

[2]: Khanh-Tung Tran, Dung Dao, Minh-Duong Nguyen, Quoc-Viet Pham, Barry O’Sullivan, and Hoang D Nguyen. Multi-agent collaboration mechanisms: A survey of llms. arXiv preprint arXiv:2501.06322, 2025

[3]: Anthropic. Introducing the model context protocol. Online; Nov. 25, 2024, 2024. URL https: //www.anthropic.com/news/model-context-protocol. Accessed: 2025-09-08.

[4]: Rao Surapaneni, Miku Jha, Michael Vakoc, and Todd Segal. Announcing the agent2agent protocol (a2a). Google Developers Blog, April 2025. URL https://developers.googleblog. com/en/a2a-a-new-era-of-agent-interoperability/. Accessed: 2025-09-08.

[5]: An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jian hong Tu, Jingren Zhou, Junyang Lin, et al. Qwen2. 5-math technical report: Toward mathematical expert model via self-improvement. arXiv preprint arXiv:2409.12122, 2024a.

[6]: An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025a.

[7]: Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv e-prints, pp. arXiv–2407, 2024.

[8]: Gemma Team, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ram´ e, Morgane Rivi` ere, et al. Gemma 3 technical report. arXiv preprint arXiv:2503.19786, 2025.

[9]: Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct elec tricity? a new dataset for open book question answering. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp. 2381–2391, 2018.

[10]: Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, et al. Are we done with mmlu? InProceedings of the 2025 Conference of the Nations of the Amer icas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pp. 5069–5096, 2025.

[11]: Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.

[12]: Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Yao Fu, et al. C-eval: A multi-level multi-discipline chinese eval uation suite for foundation models. Advances in Neural Information Processing Systems, 36: 62991–63010, 2023.

[13]: Isaac Ong, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E Gonzalez, MWaleed Kadous, and Ion Stoica. Routellm: Learning to route llms with preference data. arXiv preprint arXiv:2406.18665, 2024.

[14]: Teknium. Openhermes 2.5: An open dataset of synthetic data for generalist llm assistants, 2023. URLhttps://huggingface.co/datasets/teknium/OpenHermes-2.5.

[15]: Boyi Zeng, Shixiang Song, Siyuan Huang, Yixuan Wang, He Li, Ziwei He, Xinbing Wang, Zhiyu Li, and Zhouhan Lin. Pretraining language models to ponder in continuous space. arXiv preprint arXiv:2505.20674, 2025.

[16]: Nikunj Saunshi, Nishanth Dikkala, Zhiyuan Li, Sanjiv Kumar, and Sashank J Reddi. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。