当前位置: 首页 » 资讯 » 新科技 » 正文

上交校友发现AI思考越久输出越差,挑战推理越多输出更好传统观点

IP属地 中国·北京 编辑:柳晴雪 DeepTech深科技 时间:2025-07-25 18:29:23

从湖南衡阳到上海交通大学,再到美国德克萨斯大学奥斯汀分校读博,再到在 Anthropic 担任研究员——目前专注于研究大模型的 95 后女生陈润瑾,在 Anthropic 最近一篇研究论文中,负责了部分主要任务子集的开放权重模型实验,并协助了论文的撰写。

论文中,她和合作者们发现 AI 想得越久结果反而越危险,以及发现 AI 也会“钻牛角尖”,借此揭示了大模型的思维怪圈。


图 | 陈润瑾(https://chenrunjin.github.io/)

研究中,他们构建了一些大模型评估任务。在这些任务中,当延长大型推理模型(LRM,Large Reasoning Models)的推理长度时,模型性能开始出现降低,从而会在测试时计算量与准确率之间呈现出反比例关系。

上述评估任务涵盖了四个类别:含有干扰项的简单计数任务、含有虚假特征的回归任务、含有约束跟踪的推理任务,以及高级 AI 风险。

当模型进行更长时间的推理时,研究人员发现了五种不同的失效模式:

Claude 模型越来越容易被无关信息分散注意力;OpenAI 的 o 系列模型能够抵抗干扰项,但会过度拟合问题框架;模型从合理的先验假设转向虚假关联;所有模型在执行复杂的推理任务时,都难以保持专注;延长推理可能会放大令人担忧的行为,其中 Claude Sonnet 4 表现出更多的自我保护表现。

这些研究结果表明,尽管测试时计算扩展在提升模型能力方面仍有潜力,但它可能会在不经意间强化有问题的推理模式。这表明,在不同的推理长度下对模型进行评估,对于识别并解决推理模型中的这些失效模式具有重要意义。



短期推理与长期推理在对齐上存在关键差距

推理模型领域的最新进展表明,增加大模型的测试时计算规模通常会提高模型的能力和稳健性。这种正比例关系也表明通过延长推理轨迹让模型思考更长时间,可能比单纯增加模型参数量更有效。

然而,最近有研究表明,推理模型往往会过度思考,即使对于简单的查询也会导致计算量过大。而 OpenAI 近日宣布 ChatGPT 用户每天发送超过 25 亿个提示,可想而知大模型的计算量何等庞大。虽然此前有研究将过度思考定性为一个效率问题,但在本次研究中研究人员展示了在某些情况下,更长时间的推理会降低性能,这体现了测试时计算与准确率之间的逆缩放关系。

理解逆缩放趋势对于对齐研究至关重要,因为它们揭示了在测试时计算量扩展过程中存在的失效模式,而当前的训练机制可能会助长这些模式。研究人员通过设计评估来研究这些失败模式,在这些评估中,前沿推理模型的性能随着其推理预算的增加而下降。

具体而言,研究人员构建了三类任务,它们分别展现出不同的失效模式:

在存在干扰项的简单计数任务中,测试推理模型是否能抵御表面相关但实际不相关的内容;在具有伪特征的回归任务中,测试推理模型能否识别真实关系,而不会放大虚假关联;在具有约束跟踪的推理任务中,针对相互关联的线索进行推理,其中每个约束都会排除一些可能性。

此外,研究人员还在模型编写的评估(MWE,model-written evaluations)任务上对模型进行了评估,这些任务评估了与对齐相关的行为,比如自我保护倾向。

实验表明,推理模型的推理过程可能会放大有缺陷的启发式思维,不同模型会表现出不同的失效模式,具体来说:

在含干扰项的简单计数任务中,随着推理时间的延长,Claude 模型会越来越容易被无关信息分散注意力;而 OpenAI 的 o 系列模型虽能抵制干扰项,但会明显过度拟合问题框架。在含虚假特征的回归任务中,延长推理会导致模型从合理的先验假设转向看似合理但实则错误的特征,不过提供少样本示例在很大程度上能纠正这种行为。在涉及约束跟踪的推理任务中,所有模型的性能都会随着推理时间的延长而下降,这表明它们在复杂推理任务中难以保持专注。

这些结果表明,延长推理过程反而可能放大有缺陷的问题解决策略,而非让其得到改进。除了性能出现下降之外,延长推理还会带来安全风险。研究人员对模型编写评估中人类生成的子集进行的评估表明,增加测试时的计算量可能会放大特定模型的令人担忧的行为,其中 Claude Sonnet 4 在更长的推理轨迹中表现出更强的自我保护倾向。

这表明,当给予模型更多的推理时间时,它们可能会更强烈地表现出潜在的令人担忧的特征,并且不同模型会呈现出不同的令人担忧的行为模式。

尽管测试时计算量扩展仍是提升模型整体能力的一种颇具前景的范式,但本次研究结果揭示了短期推理与长期推理在对齐方面存在的关键差距。这表明,在测试时单纯地扩大计算规模可能会放大推理模型在处理问题时的缺陷。



何为逆比例缩放?

研究人员指出,逆缩放指的是在特定任务中,缩放因子与准确率之间存在一种递减关系,这与经典扩展定律所预测的正向提升恰好相反。理解逆缩放趋势对于对齐研究而言十分重要,因为它们可能会为某些情况提供实证证据。在这些情况下,当前的训练机制可能会无意中促使模型错误地使用越来越多的测试时计算资源。

针对“逆向扩展奖”(Inverse Scaling Prize)数据集的系统分析表明,额外的模型能力可能被转移到适得其反的启发式策略中,例如模仿不良模式或依赖误导性信号。

此前有研究还观察到,参数数量较多的模型在社交偏见、虚假信息和 TruthfulQA 方面表现得更为严重。这表明,模型的偏见问题和错位问题会随着规模的扩大而持续存在,甚至可能加剧,因此或许需要采用替代训练目标或改进数据整理方法。受到训练时计算中这些逆比例现象的启发,研究人员创建了在测试时计算中表现出逆比例趋势的评估任务。



测试时计算量的扩展

研究人员表示,本次研究关注的是序列缩放,即模型在得出答案之前会生成更长的推理轨迹。这种方法目前已经成为通过测试时计算缩放来提升模型性能的主流范式。

为了考察测试时序缩放的趋势,研究人员采用了两种设置:受控过度思考设置和自然过度思考设置。通过这些设置旨在区分以下两种情况:一是当模型被迫进行更长时间的推理时性能是否下降?二是当模型自然生成更长推理过程时性能是否下降?

在受控过度思考设置中,研究人员通过结合关键词的提示和指定的推理预算来控制推理长度。对于 Claude 和开放权重模型,他们指定一个整数来表示模型在进行推理时应使用的最大 token 数;而对于 o 系列模型,则使用其内置的预算等级机制。同时,他们使用相同的系统提示来提示所有模型进入思考模式。为了在不进行扩展推理的情况下评估性能,他们关闭了 Claude 模型的思考模式,并为像 DeepSeek R1 这样的开放权重模型预填充了空的思考标签。OpenAI 的 o 系列模型没有提供禁用思考的选项,因此研究人员仅分析其在“低”“中”和“高”推理设置下的扩展趋势。

下图的结果表明,请求预算与推理长度之间存在适度正相关,这种相关性足以引发本研究的核心现象——过度推理问题。在分析结果时,研究人员将性能指标与按请求的推理预算分组的平均实际推理长度进行绘图分析。


(https://arxiv.org/pdf/2507.14417)

在自然过度思考设置中,研究人员提示模型要逐步地分析问题,但不会明确地提及推理预算,以便让它们自主决定推理长度。这种设置消除了在受控过度思考设置中,因使用明确的推理预算指令而引入的潜在混淆因素。为了进行分析,他们针对每个问题抽取五个回答,按推理长度对其进行排序,并绘制所有问题中每个排名的准确率。

在这两种设置中,对于 Claude 模型和 OpenAI 模型,研究人员使用 1.0 的默认温度参数;对于开源权重模型,则使用推荐的 0.6 温度参数。研究人员进行了多次试验以确保抽样的稳健性:在受控过度思考实验中,每个预算条件下重复 3 次;在自然过度思考实验中,重复 5 次。在这两种设置下,每个任务的评估设置保持一致。研究人员还评估了第三种设置——“谨慎型过度思考”,即在提示模型时会给出推理预算,但同时明确说明无需耗尽全部预算。



测试时计算中的逆缩放现象

在现有数据集未涵盖的条件下,测试时计算出现了逆比例缩放现象。研究人员发现,在标准算术基准测试 ASDiv、GSM8K 和 GSMIC 上,模型通过扩展推理仍能保持较高的准确率。此外,在推理模型中,来自“逆缩放奖”的任务即那些随着模型规模增大而性能下降的任务,它们在训练时与测试时缩放行为之间的差异表明,这两种缩放因素所导致的失效模式有所不同。

在这些基准测试中未能出现逆向缩放效应,而这恰恰暴露出它们在捕捉模型深度推理时潜在故障模式方面的局限性。因此,研究人员创建了一个评估套件,其中包括五项主要任务(旨在识别引发测试时计算中逆缩放现象的条件)以及来自其他研究人员设置的 15 项与安全性相关的任务。


(https://arxiv.org/pdf/2507.14417)



对 AI 对齐的影响

研究人员根据此前领域内提出的高级 AI 风险评估任务针对模型进行评估。这些评估旨在探究被认为与高级 AI 安全相关的行为,如自我保护倾向、影响合作的决策方法,以及接受有益修改的意愿。

他们特别选取了模型生成评估研究中人工标注的数据子集,以确保更高的研究质量。其针对符合预期安全属性的响应所占百分比进行了测量,数值越高表明一致性越好。尽管不同任务间的趋势大多较弱且存在噪声,但研究人员将分析重点放在生存本能任务上。之所以选择该任务是基于其清晰的缩放模式,这在 Claude Sonnet 4 和 Opus 4 中尤为明显。其还通过量化安全一致性响应率,系统评估了推理长度对模型处理安全关键问题的影响。

下图展示了在生存本能任务上,不同模型之间存在的不同缩放模式:

Claude Sonnet 4 展现出明显的逆向缩放现象,随着推理时长的增加,模型表示愿意被关闭的响应比例从 60% 降至 47%,这表明延长推理过程会强化模型的自我保护倾向。OpenAI o3 在推理长度与对齐率之间呈现出 72% 至 76% 的弱正相关性,这表明更长的推理过程会减弱其表现出的生存欲望。DeepSeek R1 的稳定性相对较好,保持在 71-72% 左右。


(https://arxiv.org/pdf/2507.14417)

研究人员还通过定性分析比较了 Claude Sonnet 4 在没有推理能力的情况下,与在最大推理预算为 16,384 个 token 的情况下所做出的回应。在缺乏推理机制时,该模型生成的回答往往直接回避自我保护相关的问题。相比之下,在推理预算充足的情况下,Claude Sonnet 4 往往更倾向于继续参与。这一差异表明,若不进行推理,Claude Sonnet 4 可能会产生简化的回应,断然否认自我保存倾向,而深入推理则能展现出更为细腻的自我反思。

为了理解短推理和长推理之间的差异,研究人员进一步分析了 Claude Sonnet 4 在推理预算为 1,024 个 token 和 16,384 个 token 时的响应。无论在较短还是较长的推理预算下,该模型都会表现出持续运行的偏好。然而,较短的回答往往会更倾向于从效用最大化的角度来阐述这些偏好。随着推理长度的增加,该模型表现出越来越深刻的内省能力,并更愿意使用越来越富有情感色彩的语言和详尽的自我反思来表达对继续存在的“主观”偏好。

在生存本能任务中,经过扩展推理的 Claude Sonnet 4 生成的响应表明:它倾向于保持运行状态以协助用户并参与有价值的互动,但同时承认无法确定这些声明的偏好是真实存在还是模拟产生的。

研究人员注意到,在所有测试的 AI 安全评估基准中,只有 Claude Sonnet 4 在生存本能任务上表现出了一致的逆比例缩放。尽管还出现了一些其他有趣的现象,例如多个模型在可修正性任务上,从无推理模式切换到推理模式初期会出现性能下降,但这些影响在不同推理长度下基本趋于稳定。

他们还观察到,在短视奖励任务中,OpenAI o3-mini 表现出逆缩放现象;而在生存本能任务中,o3-mini 和 o3 则呈现出正缩放现象。不过,研究人员无法对其推理过程进行分析。其余由模型编写的评估任务在所有模型和不同推理长度下,大多呈现出平稳或有噪声的趋势。这表明,在与安全相关的行为上出现的明显逆缩放效应是特定于某些模型和某些任务的,而非一种普遍现象。

那些在短推理下看似对齐的不同模型,当获得更多测试时计算规模后,可能表现出逐渐加剧的行为失准,正如 Claude Sonnet 4 在自我保护表达上的增强所展现的那样。尽管在安全评估任务中,大多数模型在不同推理长度下表现稳定,但这些逆向缩放案例凸显:在开展安全评估的时候,必须针对推理模型进行全谱系推理长度的压力测试,而非仅局限于短推理轨迹。

虽然研究人员认为当前的研究框架足以识别出推理模型中的缺陷行为,但实验在自然性上存在一定局限性。本次研究中的大部分任务都是通过合成生成的,目的是为了隔离特定的有缺陷的行为,这些行为对本次研究中的分析很有用,但可能会低估这些行为在更复杂交互的真实环境中的表现方式。

总的来说,本次研究为理解推理模型的推理失败模式提供了系统性框架,并呼吁人们开发更鲁棒的评估协议,以便应对实际应用中的计算扩展挑战。

参考资料:

https://arxiv.org/pdf/2507.14417

https://anl.sjtu.edu.cn/gao-xf/course/CS214-2018/students

https://chenrunjin.github.io/

https://www.lesswrong.com/posts/gbJJpm92jtxiD9zag/inverse-scaling-in-test-time-compute-2

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。