当前位置：首页 » 资讯 » 新科技 » 正文

思维链可无限延伸了，MIT等打破大模型上下文天花板

IP属地中国·北京 编辑：苏婉清量子位 时间：2025-08-20 20:17:36

梦晨发自凹非寺
量子位 | 公众号 QbitAI
大模型的记忆墙，被MIT撬开了一道口子。
MIT等机构最新提出了一种新架构，让推理大模型的思考长度突破物理限制，理论上可以无限延伸。
这个新架构名叫Thread Inference Model，简称TIM。
TIM配上专用推理引擎TIMRUN，把推理过程变成类似树状的递归子任务结构，并动态修剪掉不再需要的子任务，就能让模型在输出窗口有限的情况下实现几乎无限制的长程推理。
当前所有顶尖大模型都面临一个尴尬的困境：上下文窗口限制。
但现实应用经常需要更长的推理链条，特别是当模型需要调用外部工具、处理复杂多步骤任务时，这个限制就成了致命短板。
传统解决方案要么是把任务切分给多个模型处理，要么是压缩历史信息，但这两种方法都会损失信息完整性。
TIM团队提出了一个巧妙的洞察：
推理过程并不是线性的，而是像编程时一样具有递归结构。
例如当我们写代码时，通常只关注光标附近的代码、已完成函数的输入输出，以及待办事项，而不会记住每个函数的所有实现细节。
这种“潜意识”的信息过滤机制，正是TIM系统的核心灵感来源。
把推理过程“解剖”成任务树
TIM最大的创新在于将推理轨迹建模为递归的子任务树，而不是传统的线性token序列。
每个任务单元包含四个关键组件：

思考过程（thought）

工具使用（tooluse）

子任务列表（subtasks）

结论（conclusion）
当模型处理复杂问题时，会自动将其分解为更简单的子任务，直到达到可以一步完成的叶节点任务。
再配合子任务剪枝机制，当一个子任务完成后，模型只保留其结论，而将具体的执行细节从工作内存中移除。
研究团队使用了一个固定大小的子任务栈来管理这个过程，当栈满时会弹出最早的子任务并将其从内存中剪除。
实验表明，这种机制可以减少超过50%的KV缓存使用，在AIME 2024数学竞赛任务上甚至达到了64.1%的剪枝率。
更重要的是，TIM采用了结构化生成方式，整个推理过程被编码为一个JSON字典，通过约束解码确保输出格式的正确性。
这使得模型可以在一次推理中完成多次工具调用，避免了传统方法中反复提交消息列表的开销。
为结构化推理量身定制推理引擎
专门设计的推理引擎解决了TIM部署中的关键挑战——如何在有限的GPU内存和位置编码范围内实现”无限”推理。
TIMRUN的核心技术突破在于动态内存管理和位置编码重用。
当子任务被剪枝后，系统不仅回收了GPU内存页，还重新分配了位置编码。
具体来说，被剪枝的token占用的位置会被后续的token重新使用，这样模型就能在固定的输出窗口限制下持续生成新内容。
在工具调用方面，TIMRUN直接在运行时内部发起调用，而不是将参数发送回客户端。
当模型输出”tool_result:”时，TIMRUN会自动提取参数、调用外部工具，并将响应直接添加到推理序列中。
这种设计将传统多智能体系统中O(n²)的token成本复杂度降低到了O(n)，其中n是推理步骤数。
实验数据显示，即使进行30多次工具调用，TIMRUN仍能保持稳定的吞吐量。
实验结果
研究团队在多个基准测试上验证了系统性能。
在MATH500数学推理任务上，TIM-8b模型达到了69%的准确率，而在更具挑战性的AIME 2024上也取得了46.7%的成绩。
值得注意的是，使用子任务剪枝不仅没有降低性能，在某些任务上反而有所提升——这证明了保持精简的工作内存有助于模型聚焦于相关信息。
在需要多跳推理和工具使用的研究型任务上，Datacommons QA基准测试TIM达到了67.9%的准确率，与使用4000多token任务特定提示的Thread方法持平，但TIM只需要简洁的系统消息和工具描述。
在更具挑战性的BrowseComp深度研究任务上，TIM-large的成功率达到7.8%，显著超过了GPT-4o的1.9%。
效率方面，TIMRUN在批量大小为30的情况下，吞吐量比基线系统SGLang提高了约20%。
更重要的是，随着工具调用次数的增加，SGLang的吞吐量急剧下降，而TIMRUN始终保持稳定，这要归功于其自动的上下文管理机制。
TIM和TIMRUN的组合解决了技术难题，推理这件事，终于不再被窗口框死
论文地址：
https://arxiv.org/abs/2507.16784

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Meta澄清Instagram“密码重置风暴”因系统漏洞所致，否认发生数据泄露

吃个饭咋就成了直播间“背景板”？商家直播边界在哪

姚顺雨“露脸”，和唐杰杨植麟探讨AGI之路

Blackview推出Mega 12平板，性能配置亮点多

前华为员工创业，在资源回收领域应用AI多模态智能分选，拿下千万元融资｜硬氪首发

太空光伏与“轨道数据中心”：为什么下一代能源与算力的战场，会在800km的高空？

全站最新

Meta澄清Instagram“密码重置风暴”因系统漏洞所致，否认发生数据泄露

吃个饭咋就成了直播间“背景板”？商家直播边界在哪

姚顺雨“露脸”，和唐杰杨植麟探讨AGI之路

Blackview推出Mega 12平板，性能配置亮点多

热门推荐

京东航空第11架波音737货机投用

加速进化：首次实现月度经营性现金流回正

引望智能回应“今年下半年上市”传闻：假消息

英伟达黄仁勋公开批评“AI末日论”：夸大危机且损害投资信心

Meta澄清Instagram“密码重置风暴”因系统漏洞所致，否认发生数据泄露

吃个饭咋就成了直播间“背景板”？商家直播边界在哪

零下20℃！谁把机器人送去滑冰了

长光卫星：国内首张甚高分辨率彩色夜光遥感卫星影像发布

姚顺雨“露脸”，和唐杰杨植麟探讨AGI之路

Blackview推出Mega 12平板，性能配置亮点多

前华为员工创业，在资源回收领域应用AI多模态智能分选，拿下千万元融资｜硬氪首发

太空光伏与“轨道数据中心”：为什么下一代能源与算力的战场，会在800km的高空？

对话鹿明机器人：在具身智能的“数据荒”里，做一个送水人｜AI Founder 请回答

技术达人破解智能电压力锅，成功移植初代《毁灭战士》

印尼暂时封禁马斯克旗下AI聊天机器人