当前位置：首页 » 资讯 » 新科技 » 正文

仅需10%思维链标注，等同全量性能！中科院发布推理监督新范式

IP属地中国·北京 新智元 时间：2025-10-28 12:17:17

新智元报道
编辑：LRST
大语言模型（LLMs）推理能力近年来快速提升，但传统方法依赖大量昂贵的人工标注思维链。中科院计算所团队提出新框架PARO，通过让模型学习固定推理模式自动生成思维链，只需大模型标注1/10数据就能达到全量人工标注的性能。这种方法特别适合像金融、审计这样规则清晰的领域，为高效推理监督提供了全新思路。
过去一年，大语言模型（LLMs）的推理能力迎来爆发式提升，其核心范式——SFT+RLVR——已成为主流。
SFT（Supervised Fine-Tuning）通过高质量的思维链（rationales）有监督地微调模型，而RLVR（Reinforcement Learning with Verifiable Rewards）则进一步利用可验证奖励信号通过强化学习扩展模型的推理能力，无需思维链监督。
然而，为SFT阶段标注高质量思维链的过程既昂贵又耗时，难以规模化。
中科院计算所团队通过系统实验发现，对于「模式化推理」（Patterned Reasoning）任务，并不需要大量人工思维链，只需让模型掌握任务的推理模式即可。

论文链接：https://arxiv.org/pdf/2510.12643
他们提出了一个简单而高效的框架——PARO（Pattern-Aware LLMs as Rationale AnnOtators），仅用 1/10 的LLM自动标注数据，性能几乎等同于全量人工标注，为解决「思维链监督昂贵、难以扩展」的核心问题提供了全新的视角与方案。
什么是 Patterned Reasoning？

固定模式下的「程序化推理」
并非所有推理任务都要求模型「临场思考」。
有一类任务，虽然语义复杂，但推理路径几乎固定—— 这就是模式化推理任务（Patterned Reasoning Tasks）。
直观理解就是：不同样本内容不同，但「解题思路」一模一样。
常见的例子包括准则驱动的任务，例如：
文本分类任务如主题分类（判断内容的主题类别），无论文本内容是什么，步骤都是「提取主体线索 → 对比预定义的类别准则 → 输出结果」。
核查类任务，模型始终遵循「定位事实 → 理解事实 → 分解事实 → 检查可信来源 → 判断真伪」的固定流程。
抽取类任务，如关系抽取中，无论处理哪类文本，模型都执行「识别实体 → 实体消歧 → 识别关系(对比预定义的关系类别) → 按模板输出」的统一框架。
形式化地，这类任务的执行过程可以抽象为，其中：
是稳定的推理模式（Reasoning Pattern），代表任务所需遵循的固定步骤或逻辑框架；
是样本特定内容（Instance-specific Content），即每个实例不同的文本、数值或事实；
表示将模式应用到内容的过程，生成最终输出。
自适应推理任务（Adaptive Reasoning Tasks）
在这些任务中，模型无法依赖统一模式，因为不同样本可能需要完全不同的解题策略。
例如：
数学题：不同题型需要完全不同的推理路线；
编程题：每个任务可能需要不同的数据结构或算法；
规划与决策问题：初始状态、目标不同，策略路径完全不同。
形式上，这类任务可表示为，此时是随样本变化的推理模式，模型需要根据输入灵活选择最合适的思维路径。

为什么Patterned Reasoning值得关注？
研究人员指出，很多金融、审计、法律、风控等工业界的任务（如自定义类别的分类任务、抽取类任务、审核类任务）本质上都是 patterned reasoning——同一套「执行步骤/判断流程」适用于不同实例，实例间主要差别是输入内容而非推理策略。
例如该论文主要研究了两类金融领域的模式化推理任务：
数值语义匹配（NSM）：判断两处数值是否指代同一个数值事实。推理流程：定位数值 → 结合上下文理解数值含义 → 语义分解、对齐 → 逐条判断判断是否等价。
交易目的分类（TPC）：判断银行交易流水的用途。推理流程：识别账户与交易方向 → 提取关键词 → 对照预定义的分类体系 → 输出类别。虽然每条交易内容不同，但规则和决策逻辑是一致的。
这些任务有个共同点：不需要「灵感式推理」，只要遵循固定步骤。
因此，对该类任务，论文提出了关键假设：
模型真正需要学习的，不是每条人类思维链的具体内容，而是背后统一的「推理模式」。
控制实验
推理监督中，什么才是关键？
论文以NSM任务作为代表性的模式化推理任务。为避免数据污染对结论产生干扰，研究团队自行收集了10万条样本并标注正确答案，同时邀请专家精心标注了1万条人工思维链。

NSM任务上不同训练策略的性能比较
通过两个对照实验，研究人员揭示了在SFT + RLVR范式下，模型主要在SFT阶段学习到任务的推理模式，而人工思维链的数量与质量对最终性能的影响并不显著：
1.数量敏感性实验：将SFT的人工思维链数量从10k随机减少至1k（保持推理模式不变），SFT阶段性能明显下降；但经过RLVR优化后，两者差距几乎消失（图2a）。

图2 控制实验结果：SFT与RLVR阶段的性能演化
结果说明只要 SFT 能够有效传授推理模式，RLVR可以通过强大的自我探索能力弥补差距。
2.质量扰动实验：将25%的人工思维链替换为GPT-4.1生成的错误思维链（但保持整体推理模式不变），SFT+RLVR的最终性能依然接近原版，甚至在部分设置下略有提升——作者推测这是由模型生成的「多样性」带来的正向作用。
进一步证明：「推理模式更重要而非每条标注思维链都要完美」。
这些实验同时揭示了SFT与RLVR的分工机制：
SFT用标注的思维链教模型「怎么思路化地解题」；
RLVR利用规则化、可验证的奖励信号，将所学推理模式泛化到更多任务实例中。
模型真的学到了「推理模式」吗？
为了验证模型是否真的「内化了推理模式」，作者设计了一个颇具启发性的分析工具，用于刻画不同训练策略下模型的推理行为。
核心思路是：
找出那些「一旦换词就会导致答案变化」的关键token——这些高影响力token，正是模型的推理锚点。
具体而言，研究人员提出并实现了「基于采样的关键token检测」方法。
其基本原理是：
识别模型生成回复中的高熵token 位置（即模型最犹豫的地方）；
将该位置已选择的token替换为若干高概率候选token，并继续进行多次采样；
若替换导致最终答案显著变化，则该位置被判定为「分叉点」（forking token），代表一个对推理决策至关重要的节点。
研究团队使用该方法提取了经不同训练策略（SFT+RLVR / pure-RLVR / UFT）得到的模型的 forking token，结果发现：
SFT+RLVR训练的模型，其forking token更具任务相关性——也就是说，模型的关键决策点集中在与任务语义相关的词汇上。
具体来看（见图3），SFT+RLVR 模型的forking token多为「任务关键词」（如 different, main_business），而pure-RLVR或UFT模型的forking token则更多是与任务无关的连接词或泛词（如but, because）。
这说明在后两种策略中，模型的推理模式尚未得到良好内化。
由此可见：SFT+RLVR不仅优化了结果，更让模型真正掌握了任务的推理模式。

图3 SFT+RLVR / pure-RLVR / UFT模型的forking token频率分布
PARO
用模式先验让大模型「自标注思维链」
基于上述发现，研究人员提出了PARO(Pattern-Aware LLMs as Rationale AnnOtators) —— 让LLM在「模式提示」下生成思维链，取代人工标注。
流程非常简单实用：
1.prompt设计
写清任务说明；
明确推理模式，通过人类专家撰写，详细列出步骤化的形式；
给出格式规范和若干示例。
2.生成器选择
使用强推理模型（论文用 Qwen3-235B-thinking）生成思维链。
3.训练流水线
用生成思维链构造SFT数据；
然后走标准的SFT+RLVR优化流程。
研究人员在NSM与TPC两项任务上实现了该流程并报告了结果，如图4所示。

图4 PARO在NSM与TPC任务上的实验结果
在NSM数据集上：SFT(1k, PARO)+RLVR的准确率与F1（92.2 / 83.6）几乎匹配SFT(10k, Human)+RLVR（92.3 / 83.2），仅使用大模型标注的1k条思维链即可达到10k人工标注思维链相当的性能。这是论文最直观也最有说服力的结论。
另外PARO优于直接蒸馏大模型内部推理轨迹的方法SFT(1k, Distill)+RLVR。
从实验到落地
如何应用PARO？
先分类
把推理任务按「是否模式化」分类（参考论文对 pattern 的形式化描述）。只对模式化推理任务尝试PARO。
小规模尝试
人工写任务的详细推理步骤并附带少量思维链示例，用强推理模型生成少量PARO思维链。对比同数量的纯人工思维链，关注最终指标与标注成本。如果PARO效果接近甚至超越人工标注, 证明可行。
质量监控
用forking-token检测或人工抽查来评估PARO思维链训练的模型是否真的「对齐了推理模式」；如果关键决策点与任务相关性较差，补充更细致的推理模式或者提供更多的数据。
让模式取代人力
让模型学会「有章可循地思考」
这篇论文传递了一个重要信号：
对于可模式化的推理任务，推理模式比标注思维链的数量和质量更关键。
PARO给出了一个高性价比、可落地的推理监督新范式：
推理模式提示 → LLM生成思维链 → SFT → RLVR
在金融、审计、法律等规则性强的工业场景中，这种思路有极高的实用价值。更重要的是，它隐含着一种趋势：
推理监督的未来，或许不是「人教模型」，而是「模型教模型」。
参考资料：
https://arxiv.org/pdf/2510.12643

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

勒索软件赎金支付率创历史新低，仅23%企业选择妥协

华为擎云亮相第二十一届煤炭展，构建可知、可感、可控安全防线

手机放电饭煲内胆传数据更快？苹果客服回应

景和医健：打造干细胞“健康丝绸之路”

面向全产业AI大模型落地加速赋能传统产业智能化转型丨新经济观察

把“科幻梦”照进现实！重庆小伙自制机甲火爆全网

全站最新

勒索软件赎金支付率创历史新低，仅23%企业选择妥协

华为擎云亮相第二十一届煤炭展，构建可知、可感、可控安全防线

手机放电饭煲内胆传数据更快？苹果客服回应

景和医健：打造干细胞“健康丝绸之路”

热门推荐

中小银行化险再添新思路，国有大行收购承接城商行

交通银行原党委委员、副行长侯维栋被查

交通银行原党委委员、副行长侯维栋被查

泰金新能二度闯关科创板：高负债率、研发投入，业绩稳定性等遭监管质疑

零跑汽车在浙江成立智控公司，注册资本2亿

山姆涉多起纠纷案件

特斯拉上海两大工厂要铺满光伏板每年能发1700万度电

亚马逊计划裁减30000名员工，占白领员工总数约10%

哈啰顺风车微信小程序存在漏洞：未上传驾驶证、行驶证也能接单

罗马仕所持3886万股权被冻结

最后30多天倒计时：电动自行车旧国标车普涨100-300元去库存

国家邮政局对中通快递股份有限公司实施行政约谈

巨人网络:第三季度净利润为6.4亿元，同比增长 81.19%

科创力最新排名：小米超美的跃居第一，格力第八

Anthropic 推出新功能，Claude 为金融分析师提供强大工具