![]()
以 DeepSeek-R1 等为代表的推理模型(Large Reasoning Models, LRMs),通过生成更长的思维链,在各类复杂任务中取得了更优的表现。但长思维链是推理模型的 “双刃剑”,虽能提升性能,但 “过度思考” 带来的语义冗余会大幅推高推理成本。
为破解大模型长思维链的效率难题,并且为了更好的端到端加速落地,我们将思考早停与投机采样无缝融合,提出了SpecExit方法,利用轻量级草稿模型预测 “退出信号”,在避免额外探测开销的同时将思维链长度缩短 66%,vLLM 上推理端到端加速 2.5 倍。
![]()
论文:https://arxiv.org/abs/2509.24248开源代码:https://github.com/Tencent/AngelSlim
1.“思考早停” 的挑战
目前对 LRMs 思维链压缩的相关研究大致可以分为两类,一类是基于训练的方法,另一类是 Training-Free 的方法,它们都有各自的局限性:
(1)基于训练的方法,通过标注数据进行有监督微调,或通过强化学习减少思维链长度。尽管压缩效果显著,但往往伴随高昂的训练成本,并导致模型输出分布被改变,引发模型可靠性及性能上的担忧。
(2)Training-Free 的方法,无需高昂的训练开销,通过介入模型的长思考过程,监控模型的 Logits 或其他输出信号,来判断当前思考长度下,能否提前终止推理。这类方法表明,通过提前停止可以在不降低准确率的前提下缩短推理长度,但其依赖探测机制会带来额外计算开销,并且往往更关注词元数量的减少,而非真正的端到端推理时延优化。
![]()
图 1 SpecExit 实现端到端加速
![]()
图 2 从模型隐藏状态中学习到的推理进度信号
针对以上的问题,我们发现了投机采样的天然优势,既能保证模型输出的一致性,又能从草稿模型隐藏状态中提取推理进程信号,基于此思路我们提出了 SpecExit 框架。如图 2 所示,模型的隐藏状态中天然蕴含了例如置信度、推理进度和剩余推理长度等信号,SpecExit 通过将这些信号与投机采样结合,在不引入额外探测开销的前提下,实现动态、可靠的思考早停。并且如图 1 所示,相比于基线和 DEER 等方法,SpecExit 在 vLLM 上端到端加速 2 倍以上,准确性和推理效率得到双重保障。
2.SpecExit 方法创新
大模型中多词元预测(Multi-Token Prediction, MTP)的隐藏状态可以预测未来 N 个位置的词元,这表明隐藏状态中蕴含了丰富的信息。受 MTP 的启发,SpecExit 的目标是:同时从隐藏状态中学习表征推理状态的「信号」及未来 N 个词元,在保留 MTP 原有加速能力的基础上,引导思考过程提前终止,进一步提升推理效率。SpecExit 整体框架如图 3 所示,仅需对 MTP 的隐藏层进行低成本的扩展,即可高效加速并压缩推理模型的思维链。
![]()
图 3 SpecExit 方法架构总览
2.1 SpecExit 训练流程
(1)数据构建:我们首先获取基础模型生成的完整输出,并提取位于 词元之间的推理内容。为了识别有效的推理轨迹,我们迭代尝试在段落结束位置插入推理结束词元 ,并验证生成的最终答案是否与原始输出匹配。如果答案保持一致,则后续的推理内容被视为冗余。因此,仅保留产生正确答案所需的最小推理片段作为训练数据。
(2)信号标注:置信度 Confidence 定义为预测步骤中概率的几何平均数,反映生成的可靠性;剩余推理长度 Remain 定义为从当前词元位置到最早有效 插入点的剩余词元数量,量化推理的剩余工作量;推理进度 Progress 表示为从 0 到 1 的归一化值,捕捉思维链的相对进度。
(3)信号回归:我们提出了一种简便高效的扩展方法,通过在 MTP 模块的线性投影层中引入少量额外维度来回归推理信号。这些维度与词元分类权重正交,确保信号回归不会干扰推测解码训练的收敛。多任务学习(Multi-Task Learning, MTL)将词元分类损失和信号回归损失联合优化,整体训练目标如下:
![]()
其中,词元分类预测使用标准交叉熵损失,置信度和推理进度使用均方误差(Mean Squared Error, MSE),剩余推理长度使用均方对数误差(Mean Squared Logarithmic Error, MSLE),λc、λp、λr 表示动态权重系数。置信度、推理进度、剩余推理长度三个信号量的损失函数公式如下:
![]()
由于信号回归损失的收敛速度比词元分类损失更快,我们采用基于梯度的动态权重策略来平衡不同任务的贡献。该机制为梯度幅度较小的任务分配更高权重,防止梯度较大的任务主导学习过程,从而确保所有任务都能得到有效优化,训练损失收敛曲线如图 4 所示。
![]()
图 4 训练 Loss 收敛曲线
![]()
图 5 信号引导的投机采样思考早停 Inference 过程
2.2 SpecExit 在 vLLM 推理流程
我们基于投机采样框架构建了思考早停机制,其中草稿模型首先产出一系列候选词元,随后由目标模型并行验证。特别的,在目标模型验证流程中,除了计算下一个词元的 Logits 外,还计算最后一个被接受词元对应的最终隐藏状态。如图 6 所示,该表征通过草稿模型的轻量级线性层处理后,额外生成置信度分数、推理进度以及剩余推理长度三个信号的预测值。
原始信号存在一定的波动性,可能导致过早或不稳定的思考早停。因此 SpecExit 采用指数加权移动平均(Exponentially Weighted Moving Average, EWMA)方法对信号进行平滑处理。在每次 Decoding 中,平滑值更新为当前信号与先前平滑值的加权平均,确保了思考早停在持续解码阶段的高鲁棒性。
![]()
图 6 SpecExit 思维链压缩示例
同时,为确保思考早停的决策发生在语义连贯的边界处,我们引入了一类称为步骤分割词元的特殊标识符,用于指示生成文本中的自然分段点。具体而言,步骤分割词元可分为两类:
(1)段落分隔符(如.nn),标记段落或推理单元的结束;
(2)语义上的句子间逻辑连接词(如 "But"、"So" 或 "Therefore"),常在推理过程中标示语义转换或逻辑转折。
由于基于段落分隔符的分割策略更具普适性,我们的实验默认采用该策略。当采样到的词元属于上述集合时,且预测的信号超过预设阈值,则判定推理过程已充分。此时,SpecExit 会在当前分割词元位置截断已接受的草稿词元,并将目标模型的最新词元替换为 ,从而确保终止点位于自然边界的同时保持生成文本的连贯性。并且 SpecExit 在 vLLM 框架上已端到端支持,在实践应用上可以很便捷的集成。
3. 实验结果
我们在数学、科学、编程和逻辑基准测试上对 SpecExit 方法进行了评估,如表 1 实验结果显示,SpecExit 显著缩短了推理过程。在 Qwen3-4B-Thinking-2507 模型上,GSM8K 和 ARC-Challenge 的数据集推理长度分别减少了 54% 和 53%;在 DeepSeek-R1-Distill-Llama-8B 模型上,推理长度分别减少了 66% 和 64%。推理长度大幅缩短的同时,SpecExit 基本无额外探测开销,所以 vLLM 上端到端加速提升显著,例如在 GSM8K 数据集上,与投机采用基线 EAGLE3 相比,SpecExit 在两个模型上分别实现了 1.9 倍和 2.5 倍的加速比。与此同时,SpecExit 在各基准测试上 Acc 基本无损。
![]()
表 1 SpecExit 评估与性能测试,Acc 表示精度,Tok 表示输出词元数量,Lat 表示端到端时延
与此相比,其他思考早停方法虽然也可以减少输出长度,但延迟增益很有限,甚至在某些数据集上,额外的计算开销反而导致推理速度变慢。而 SpecExit 不仅缩短思考长度,而且推理时延加速非常明显,在实际应用中更加实用。
对于思考停止信号的选择,我们进行了融合信号与分别单独使用置信度 Confidence、推理进度 Progress、剩余推理长度 Remain 的消融实验。实验结果如图 7 所示,融合多种信号的策略能够在减少输出长度和维持精度表现之间做到更好的平衡。
![]()
图 7 信号类型消融实验
4. 总结
SpecExit 结合投机采样,在不影响准确性的前提下在 vLLM 上实现最高达 2.5 倍的端到端推理速度提升,是 LRMs 实践落地的非常有效的加速算法。正是利用了投机采样的草稿模型,SpecExit 能在解码过程中同时预测未来词元和思考早停信号,不会增加额外的探测开销,与其他方法相比有更多的性能优势,在实践落地非常实用。
在多样化任务和模型上的实验表明,SpecExit 泛化能力非常好,并且该方法揭示了隐藏状态作为高效推理信息信号的潜力,也将为继续深入发掘隐藏状态作用的后续研究工作提供很大的借鉴意义。我们的 SpecExit 方法。





京公网安备 11011402013531号