当前位置：首页 » 资讯 » 新科技 » 正文

真·开外挂！MIT新研究：架构0改动，让大模型解锁千万级上下文

IP属地中国·北京 编辑：钟景轩量子位 时间：2026-01-19 18:28:58

闻乐发自凹非寺
量子位 | 公众号 QbitAI
让大模型轻松处理比自身上下文窗口长两个数量级的超长文本！
MIT CSAIL研究团队提出了一种叫做递归语言模型RLM的长文本处理新方法，来解决上下文腐烂问题。
不修改模型架构、不升级模块设计，但能让GPT-5、Qwen-3这类顶尖模型推理层具备千万级token的超长文本处理能力。
核心思路是不把提示词直接塞进大模型的上下文窗口，而把它“外包”给可交互的Python环境，让模型主动通过自动编程和递归调用拆解任务、按需处理。
啊？大模型读上下文也能递归操作？
上下文窗口不够，仍能推理
先说上下文腐烂这个扎心的问题。
不管大模型宣称自己的上下文窗口有多大，它们处理超长文本时，都会遇到文本越长，模型对早期信息的记忆越模糊，推理性能直线下滑的问题。
这就像我们读百万字小说，读到后半段，早就忘了前半段的关键情节。
现在主流的解决办法有上下文压缩、检索增强生成RAG，或者对模型进行架构级优化。
比如，GPT-5.2-Codex采用的就是窗口内的原生上下文压缩技术，在持续数周的大型代码仓库协助任务中保持全上下文信息。
同时，GPT系列、Claude、Qwen等企业级版本原生集成RAG功能也是行业共识。
而架构级优化的例子，有社区普遍猜测的Gemini 3的环形注意力等。
现在的RLM和这些直接在模型上“硬磕”的方法不同，它把上下文处理给“外包”了。
RLM给模型搭了一个可交互的Python编程环境REPL。
开始处理上下文前，它先启动Python REPL交互式编程环境，将超长提示词作为字符串变量存入环境；
接着模型像程序员一样编写代码，对文本变量进行关键词筛选、局部探查、逻辑拆分等操作，通过「编写代码-观察结果」的交互循环减少无效信息摄入；
随后模型将复杂任务拆解为若干子任务，递归调用自身或轻量化子模型处理拆分后的文本片段，所有子任务输出均存储为新变量回流到REPL环境；
最后主模型编写代码读取并整合所有子任务结果变量，进行逻辑拼接或语义处理，形成最终输出。
全程由模型自主决策，实现按需处理，彻底解耦输入文本长度与模型上下文窗口的绑定。
实验显示，RLM有效处理规模已突破千万级Token，超过GPT-5等前沿模型原生上下文窗口的两个数量级。
在复杂长文本任务中，RLM的优势也比较显著。面对要求聚合成对信息、复杂度呈二次方增长的OOLONG-Pairs任务，基础GPT-5和Qwen3-Coder的 F1分数不足0.1%；
采用RLM方案后，两款模型分别取得58.00%和23.11%的F1分数。
在600万至1100万Token规模的BrowseComp-Plus（1K）多文档推理任务中，RLM（GPT-5）的正确率高达91.33%，大幅超越其他长文本处理方案；
即便在要求线性扫描并处理几乎所有信息的OOLONG任务中，RLM也实现了双位数的性能提升。
从调用成本上看，在50分位数这个指标上，RLM的成本和其他长文本处理方案处于同一水平，甚至更低。
这说明在大多数常规任务场景中，RLM的性价比是很有优势的。
但到了95分位数这类高百分位区间时，RLM的成本会出现明显飙升。
主要是因为RLM的推理过程是动态的，会根据任务复杂度自主决定代码编写、文本拆分和递归调用的次数，额外的步骤会增加API调用次数。
最后再划个小重点，RLM是一种不碰模型架构的通用推理策略，也就是说，理论上任何模型都能直接上车。
论文地址：https://arxiv.org/abs/2512.24601

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

西湖大学发布机器人领域首个动作泛化大模型，领先国际同行6个月以上

托举低轨星座组网的“新一代快车”（我身边的最强大脑）

“龙虾悖论”怎么破？（“融”观中国）

科技周报|微信接入Openclaw；阿里平头哥不排除上市可能

连续两周蝉联全球第一！中国AI大模型调用量达4.69万亿Token

刚刚！捷龙三号遥十运载火箭海上发射圆满成功

全站最新

西湖大学发布机器人领域首个动作泛化大模型，领先国际同行6个月以上

托举低轨星座组网的“新一代快车”（我身边的最强大脑）

“龙虾悖论”怎么破？（“融”观中国）

科技周报|微信接入Openclaw；阿里平头哥不排除上市可能

热门推荐

西湖大学发布机器人领域首个动作泛化大模型，领先国际同行6个月以上

托举低轨星座组网的“新一代快车”（我身边的最强大脑）

“龙虾悖论”怎么破？（“融”观中国）

为生产线装上智慧大脑

科技周报|微信接入Openclaw；阿里平头哥不排除上市可能

连续两周蝉联全球第一！中国AI大模型调用量达4.69万亿Token

刚刚！捷龙三号遥十运载火箭海上发射圆满成功

行业首个！滴滴，放大招！打车进入“一句话时代”？

高品质音频离不开的芯片！傅里叶半导体通过聆讯，募资加码智能汽车领域|港E声

海上捷龙十问苍穹 | 一图纵览“捷龙三号”运载火箭的太空征途

高品质音频离不开的芯片！傅里叶半导体通过聆讯，募资加码智能汽车领域|港E声

我国成功发射微厘空间02组卫星

我国成功发射微厘空间02组卫星

星际荣耀双曲线三号可重复使用运载火箭一级辅助动力系统试车成功

扩散语言模型总是均匀发力，华为诺亚教它「抓重点」