![]()
专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破,但也带来了一个重要问题:越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作 DTS(Decoding Tree Sketching):一种即插即用的模型推理框架,依靠高不确定度分支推理和最先完成路径早停两个关键策略,以近似找到最短且正确的推理路径。
![]()
论文地址:https://arxiv.org/pdf/2511.00640开源工程:https://github.com/ZichengXu/Decoding-Tree-SketchingColab online demo: https://colab.research.google.com/github/ZichengXu/Decoding-Tree-Sketching/blob/main/notebooks/example_DeepSeek_R1_Distill_Qwen_1_5B.ipynb#scrollTo=oTrZL0i3UstX
在 AIME2024/2025 上,DTS 在 DeepSeek-R1-Distill-Qwen-7B/1.5B 上准确率平均提升 6%、平均推理长度下降约 23%,无尽重复率平均减少 10%。
![]()
核心洞见:推理链长度与正确率显著负相关;多次解码中最短的推理链往往最正确。方法一句话:在「高熵」位置展开多分支并行解码;哪个分支最先生成终止符()就立刻停止,从而完成最短路径推理。无需训练:不做 SFT/RL,不改模型权重,纯解码策略,即插即用。实证结果:AIME24/25 上,7B/1.5B 模型准确率 +2%~+8%,平均长度 -17%~-29%,无尽重复率下降 5%~20%。
背景:推理大模型的「过度思考」问题
CoT / 多步推理让模型更会「想」,但也带来很重要的问题:越长越易偏离正确答案或陷入自我重复,正确率反而下降,如下图所示。现有方法多依赖额外训练(SFT/RL)或激进剪枝,落地成本高或稳定性不佳。DTS 开辟了一条全新的技术路线:不训练,只优化解码策略,把「想得又短又准」转变为解码中的搜索问题。
![]()
关键实证:最短那条,往往是对的
作者对 AIME24 上的题目做了密集采样:每题 100 次随机解码。结果非常直观:
![]()
选最短(每题从 100 条里挑最短):76.67% 准确率选最长:10.00%总体平均:51.03%
并且,长度与准确率呈明显负相关:样本点越靠右(越长),正确率越低。这直接催生了 DTS 的目标:以尽可能小的代价,逼近「最短且正确」的那条路径。
Decoding Tree Sketching(稀疏化接码树)
把推理过程看成一棵解码树:节点是已生成 token,路径是一次完整 CoT,叶子节点就是该 CoT 的终止符(指数爆炸的复杂度,因此不可行。DTS 的思路是:只在「关键 token」考虑多种可能的结果从而分支构造树结构,如图所示:
)。寻找最短的推理路径相当于搜索从根节点到最浅层的叶子节点的路径。在这个问题中,穷举搜索可以得到最理想的路径,但是这回造成树分支有
![]()
在高熵处产生分支
在解码过程中,DTS 计算下一个 token 分布的熵 H (v)。若 H (v) ≥ τ(模型不确定):取 Top-K 候选,同时开 K 个分支;若 H (v) < τ(模型很确定):沿单分支前进(常规解码)。τ 决定「分支的增长的速率」,K 控制「横向宽度」。τ→∞ 时退化为普通自回归解码。
核心思想:不确定才需要分支;确定时不分支,避免解码树乱枝蔓生。
最先完成即早停
任何分支一旦产生终止符(),立即返回这条路径的推理过程和答案;等价于在「稀疏化的解码树」上做 BFS 的最短路原则。
核心思想:把「短即优」的统计规律写进了停止准则。
实验:更准、少复读
QA 准确率提升
DTS 在 AIME2024 和 AIME2025 与传统自回归解码的对比:
![]()
结论: 稀疏化解码树 + 早停稳定提升模型最终回答的准确率。
有效抑制模型的「无尽复读」
统计「无法在最大长度内收敛、陷入循环」的比例:
![]()
结论:稀疏化解码树 + 早停让「自我复读」的路径被更短的完成路径代替。
一键复现结果
在 Colab 上试运行 DTS: https://colab.research.google.com/github/ZichengXu/Decoding-Tree-Sketching/blob/main/notebooks/example_DeepSeek_R1_Distill_Qwen_1_5B.ipynb
克隆 DTS 的开源项目,并且安装环境:
![]()
复现论文中的结果:
![]()
结论
DTS 以极低的工程成本,为推理型大模型提供了一种「更聪明」的思考方式。它不依赖后训练,不修改模型参数,仅通过稀疏化的解码树探索最短的推理路径,就能显著提高准确率、减少复读。这种「在不确定处分支、在确定处直行」的设计,使得大模型的推理过程更像人类的理性思考:在模糊时多想几步,在明确时迅速收敛。
DTS 的核心贡献在于:
提出一种全新的推理优化范式,把推理质量问题转化为解码搜索问题;揭示推理链长度与准确率的统计规律,为未来的推理模型提供可量化的优化方向;在实际基准上验证有效性与可迁移性,可直接用于主流推理模型。
从更长远的角度看,DTS 展示了一种轻量化的推理优化路线:让模型「想得更少但更准」。未来,类似的解码层优化有望与多步推理、校准与不确定性估计等方向结合,为 Large Reasoning Models 的高效与可靠推理开辟新的路径。
作者介绍
徐子程:Johns Hopkins University 一年级博士生,研究领域为 LLM alignment,以及 inference time scaling。王冠楚:University of North Carolina at Charlotte 助理教授,研究领域为 LLM reasoning,AI 安全性以及 AI for healthcare。楼修逸:Johns Hopkins University 硕士研究生,研究方向为 LLM alignment,以及强化学习。Yu-Neng Chuang:Rice University 五年级博士生,研究领域为,研究方向为 LLM reasoning,LLM post-training,以及 LLM Routing。Guangyao Zheng:Johns Hopkins University 四年级博士生,研究领域为 scalable,privacy-aware AI,以及 AI for healthcare。刘子锐:University of Minnesota 助理教授,研究领域为 LLM efficiency,long-context ability,以及 reasoning。Vladimir Braverman:Johns Hopkins University 教授、计算机系副主任,带领团队专注于 Theoretical ML、Optimization、NLP,以及 digital health 等方向的研究。





京公网安备 11011402013531号