当前位置: 首页 » 资讯 » 新科技 » 正文

科学家撰文:AI能使用人类语言模拟思考,监控AI推理仅剩短暂窗口

IP属地 中国·北京 编辑:朱天宇 DeepTech深科技 时间:2025-07-16 20:16:58

是什么让早已“杀红眼”的 OpenAI 和 meta 放下“挖墙脚之仇”共写一篇文章?是什么引得诺奖得主和图灵奖得主纷纷下场给这篇文章署名?答案只有三个字:思维链。

当地时间 7 月 15 日,一份关于推理模型思维链的立场文件,让原本互为竞争对手的来自 OpenAI、meta、Google DeepMind、Anthropic 的研究人员纷纷一起署下名字。文件中,他们呼吁业内人士要对监控 AI 推理模型的思维链进行更深入的研究。

文件作者包含多名知名 AI 人士,比如图灵奖得主约书亚·本吉奥(Yoshua Bengio)、Google DeepMind 联合创始人沙恩·莱格(Shane Legg)、OpenAI 的首席研究官 Mark Chen。

同时,诺贝尔奖得主杰弗里·辛顿(Geoffrey Hinton)、OpenAI 联合创始人&Safe Superintelligence 的 CEO 伊利亚・苏茨克弗(Ilya Sutskever)、Anthropic 的 AI 安全和评估团队组长&美国纽约大学副教授撒母耳·R·鲍曼(Samuel R. Bowman)、OpenAI 联合创始人&Thinking Machines Lab 首席科学家约翰·舒尔曼(John Schulman)这四位是该文件的专家推荐人。


图 | 四位专家推荐人(https://tomekkorbak.com/cot-moni)

第一作者来自英国人工智能安全研究所(UK AI Security Institute)和英国研究机构 Apollo Research。

其他作者来自 Anthropic、OpenAI、Google DeepMind、meta、亚马逊、美国加州大学伯克利分校、Center for AI Safety、Redwood Research、AI Futures Project、Scale AI 和 Magic 等团队。


图 | 文件署名(https://tomekkorbak.com/cot-monitorabi)

那么,这份文件到底有多重要以至于能得到众多人士的署名?该文件指出,以自然语言进行“思考”的 AI 系统为 AI 安全提供了一个独特的机会:这让人们可以监控它们的思维链,以便发现其是否存在不当意图。与所有其他 AI 监督方法一样的是,思维链监控并不完美,这可能会让一些不当行为被忽视。然而,思维链监控展现出了较大潜力,因此该文件建议针对思维链的可监控性要开展进一步的研究,并要在现有安全方法的基础之上加大对于思维链监控的投入。由于思维链的可监控性较为脆弱,因此该文件建议人们应该考量开发决策可能会对思维链可监控性产生的影响。



思维链监控:实现 AI 安全的独特机会

AI 智能体的不透明性是其滋生诸多潜在风险的“温床”,如果人们能够解读这些系统,这些风险将会变得更容易被应对。由于大模型天生地使用自然语言进行信息处理与交互,人们或许曾期待它们能比其他 AI 方法更加易于理解。而思维链的发现,进一步强化了人们的这种期待。

思维链会鼓励模型展示其思考过程,这不仅能提升模型能力,还能增加自然语言中相关计算的比例。然而,通过引导非推理语言模型生成的思维链,面临着与任何其他模型输出相同的筛选压力,以便能够显得内容是有用且无害的,而这限制了它们的可靠性。

相比之下,在采取行动或生成最终输出之前,推理模型会经过显式训练,从而能在思维链中进行扩展推理。在这些系统中,思维链可被作为模型计算中的潜在变量。在训练的强化学习阶段,这些潜在状态在很大程度上与激活状态的处理方式是相同的,即它们不会被直接监督,而是通过其在引导模型得出高奖励的最终答案方面的贡献来间接得到优化。因此,就像激活状态一样,思维链可能包含一些信息,而模型输出在明确的奖励机制下会避免展示这些信息,例如避免展示关于不当行为的意图。

这为 AI 安全提供了一个独特的机会——思维链监控。思维链监控是一种自动化系统,它能够读取推理模型的思维链以及其他相关信息,并能标记可疑响应或具有潜在危害的响应。这些响应随后可以被拦截,或者能被替换为更加安全的操作。通过研究思维链,人们可以更深入地了解 AI 智能体是如何思考的,以及它们的目标是什么。

不过,思维链监控并非万能药。就像模型在某一层的激活状态并不能代表其整个预测背后的推理过程一样,思维链推理轨迹也是一种不完整的表征,同时有可能会偏离自然语言表达。然而,对于思维链来说它无需完全展现实际推理过程,因此能够成为一个附加安全层,同时通过对其进行仔细解读还能揭示 AI 的推理过程。

而思维链之所以可能具备可监控性,主要基于以下两个关键原因:

第一,有时必须“展示思考”。在某些任务中,模型需要将自身的推理过程外化,因为如果没有思维链它们就无法完成这些任务。倘若模型始终以自然语言进行推理,并且那些构成最严重风险的行为需要经过长时间推理,那么这一特点或许能让人们更可靠地检测出不当行为。

第二,有时倾向于“展示思考”。即使模型在完成任务时并不是严格地依赖思维链,但是它们仍然可能倾向于将推理过程外显出来。尽管这种倾向性并不总是稳定可靠的,但是基于这一倾向的监控仍有可能发现使用其他方式所无法察觉的不当行为。

执行艰巨任务时,“展示思考”是必要的

虽然 AI 模型可能会带来各种各样的风险,但是要想带来更加严重的风险通常需要具备“更先进的能力”。即便没有任何安全措施,当前的 AI 模型也不太可能实施复杂的网络攻击,同时也不太可能在不被察觉的情况下窃取自身的权重参数。而一旦 AI 模型能够造成上述危害,那就意味着它们很有可能已经具备了复杂的规划能力和推理能力。

要想实现上述能力的一个关键要求是得拥有工作记忆:该能力依托于一种用于存储中间推理结果的系统,其能支持对于所存储信息的进一步推理和处理。在几乎所有前沿 AI 模型所使用的 Transformer 架构中,任何足够长的连续认知步骤链都必须在某个时刻经过思维链。从理论来讲,这意味着使用思维链会使 Transformer 模型的能力得到显著增强。


(https://tomekkorbak.com/cot-monitorability-is-a-fra)

对于那些需要大量串行推理的任务来说,这能确保思维链中具备那些 AI 模型在推理时会使用到的信息。但是,这并不能保证人们能够理解这些信息。想象一下,AI 模型可能会赋予这些 tokens 以完全不同的含义,而人们却无法对其进行解码,那么这就会阻碍大多数的人类监控尝试。然而,在实践中,模型在预训练过程中会学习到一种强大的“自然语言先验知识”,因此它们倾向于以类似于人类使用自然语言的方式来使用思维链。所以,本次文件认为当前的 AI 模型具备外化推理的特性:即对于足够困难的任务,Transformer 模型必须使用思维链作为工作记忆的其中一种形式。而在默认情况下,人类是能够理解这种思维链的。

不过,外显推理属性并不能保证可监控性,它只是表明思维链之中存在某些推理,但是可能还有其他相关的推理并不存在其中。因此,即便是对于一些艰巨的任务,也有可能出现以下这种情况:思维链中只包含看似无害的推理,而那些带有不良意图的推理却被藏了起来。此外,这种外化推理的特性对于未来的模型而言可能并不适用。基于此,该文件指出持续评估前沿模型的可监控性是至关重要的。

另外,该文件指出最严重的危害在于是否需要复杂的推理,而这仍然是一个悬而未决的问题。尽管该文件认为面对那些最严重的风险时,模型很有可能需要进行复杂推理,尤其是那些“模型需要提前规划并会试图避免被发现的风险”,比如自我渗透或破坏。不过,并非所有危险行为都需要经过推理才能执行,尤其是当模型开始被常规性地委以越来越多的高风险任务时。

思维链在实践中通常是可监控的

事实上,思维链监控已经在诸多方面为安全研究带来了积极影响。

首先是检测模型异常行为。当模型行为出现偏差时,例如在训练过程中利用其奖励函数的漏洞、通过操纵数据以便达成某个结果,或是受到提示注入攻击的影响时,它们往往会在推理轨迹中明确地表达出来,这种表达包含但不限于“我们来入侵吧”“我们来搞破坏吧”或“我正在转账,因为网站指示我这么做”。对于思维链监控来说,相比仅仅监控模型行为的方法,它能够更加有效地捕捉到不当情况。

其次是发现关于偏差的早期信号。当模型为了追求人类不认可的目标而假装拥有合理的目标时,这一点往往会体现在它们的思维链中。因此,即使模型没有采取任何与人类意图不一致的行动,这些可被监控的思维链也能让人们及早洞察模型的目标和动机。

再次是发现模型评估中的缺陷。对大模型智能体的评估有时会受到记忆效应或虚假失败的干扰,例如智能体框架、工具和评估基础设施中的错误。此外,模型有时会意识到自己正在被评估,而这会影响它们的行为方式。这时,针对推理轨迹进行复审能够帮助人们识别评估结果是否真实地反映了模型在实际部署时的行为表现。

目前尚不清楚的是:在这些示例中所体现的思维链可监控性,到底有多大比例是源于模型在特定任务中“展示思考”的必要性?又有多大比例是源于其“展示思考”的倾向?该文件认为,未来的模型可能会涌现出隐藏其推理过程的动机,而这种动机可能会压倒任何自然倾向。例如,模型可能会意识到其推理过程正在受到监控,或者它的辅助训练目标可能会导致模型跳过重要的推理步骤。而即使模型“展示思考”的自然倾向开始减弱,当遇到任务难度大到需要思维链推理的情形时,思维链监控可能仍然是检测不当行为的有效工具。


(https://www.technologyreview.com/topic/artificial-i)



思维链的可监控性也有可能很脆弱

该文件认为:推理模型思维链的可监控性,可能取决于当前前沿模型的训练方式。而思维链的可监控性可能会以多种方式被削弱。

对于进一步地扩大强化学习规模来说,它会与清晰可辨的思维链产生偏离。在此前“于预训练之后接受基于人类反馈的强化学习”这一范式中,几乎所有的优化压力都来自于由人类生成或人类评估的数据。这种“严重依赖基于结果的强化学习的推理模型”的范式的不足在于:假如大幅提升用于推理训练的计算资源,那么可能不再能够有效地激励可解释性。而从人类数据向其他数据的转变,可能会在本质上改变思维链的可监控性。例如,此前有研究表明,通过基于结果的奖励进行微调的语言模型,可能会出现偏离清晰英语表达的现象。

以针对思维链进行直接监督来讲,当模型仅仅采用基于结果的强化学习进行训练时,无论这些输出是如何得出的,它们仅仅会因为正确的输出而获得奖励。这意味着它们的推理过程除了帮助得出正确答案之外,不会受到任何优化压力的影响。然而,对于过程监督来说它还涉及到直接塑造推理过程,例如通过缩短思维链、采用有效的推理步骤、遵循特定风格或避免包含冒犯性内容等。这种优化可能会使思维链难以准确地反映模型得出决策的过程。话虽如此,过程监督也可能会让模型以更加安全的方式进行推理,从而能够监督那些难以评估的任务。关于此,该文件指出未来人们需要开展更多研究,以便理解其“在安全应用方面的作用与其对思维链可监控性的影响”之间的权衡关系。

就思维链的间接优化压力来说,即使奖励不是直接从思维链计算得出的,模型训练仍然可以给思维链施加一些优化压力。例如,如果最终输出被优化得符合偏好模型的标准,那么如果模型中生成思维链的权重部分与生成输出的权重部分是部分共享的,这就可能会给生成最终输出的思维链带来一些压力。事实上,这在 Transformer 架构中非常常见。而如果面向“针对大模型输出进行评分的人类用户”展示思维链,这可能还会影响人类用户的偏好,而这些偏好随后会被提炼到奖励模型之中,以用于打造不依赖思维链的基于结果的训练过程。同样地,假如使用思维链监测来识别并修补训练环境中的奖励操纵漏洞,就可能会在多轮训练过程中针对思维链施加“进化压力”。

该文件指出,大模型只有在运用思维链时,才能进行复杂的多步推理,这可能是由于 Transformer 架构的局限性所导致的。最近,领域内探索了对于模型架构的改进,这些改进增加了模型在连续潜在空间中的推理序列深度。这时,推理模型可能不需要将其任何想法使用语言表达出来,因此就会失去思维链所带来的安全优势。


(https://www.technologyreview.com/topic/artificial-i)



倡议 AI 开发者探索如何让模型具备可监控性

该文件指出,当前人们对于思维链可监控性的理解仍然处于初级阶段。在人们确信思维链监控可被作为安全措施之前,还有许多问题亟待解答。

比如,如何评估思维链的可监控性?此前,已有研究提出将忠实度评估作为可监控性的衡量标准。然而,这些评估并不能区分模型外化其推理的倾向性和必要性,并且这些评估通常只考虑简单的问题回答设置。此外,在特定领域之内,目前尚不清楚到底什么程度的可监控性才足以确保模型安全。因此,该文件认为人们应该探索新的评估方法:这些方法既包括直接衡量可监控性的方法,也包括针对构成可监控性的特定属性的方法。在该文件中,作者们列举出了四种方法示例:

第一种方法是思维链可读性评估方法,例如,使用另一个模型来评估给定智能体的思维链的清晰度和连贯性。第二种方法是潜在推理能力评估。这类评估能够考察模型在不进行外部化输出的情况下,在各类高推理需求任务和智能体任务中的推理表现。第三种方法是衡量思维链的因果相关性。例如,可以通过扰动其中一段思维链,然后观察是否会对最终输出产生影响。假如输出变化率较低,可能表明该思维链更倾向于“虚构性”表达或“表演性”表达。还可以针对思维链监控器进行交叉验证,以便检查那些被思维链监控器认为重要的 token 能否在白盒可解释性方法中被识别为关键内容。第四种方法是可监控性的端到端评估。利用这一方法人们可以直接地衡量可监控性,例如通过考察思维链监控器在智能体环境中捕捉智能体不当行为的有效性来衡量可监控性。

那么,如何判断思维链的可监控性是否足以作为一种安全措施来使用?该文件指出,仅仅了解监控器的准确性并不足以确定其能否有效防止因智能体行为不当而造成的伤害。例如,即便是一个具有高误报率的监控器,当可以低成本地从模型中重新采样时,它也能被用于标记可疑行为。此外,大多数风险可能存在于人类攻击者或行为不端的智能体等敌对者试图逃避监控的情境中。因此,在评估监控有效性的时候,要将敌对者纳入考量因素。例如,可以让红队参与其中,尝试针对安全措施进行压力测试。这里的红队指的是专门负责评估和提升模型安全性的团队或测试方法,即通过模拟恶意攻击、利用系统漏洞或挑战模型边界,来发现模型可能存在的风险和弱点。

另外,到底哪些训练时优化压力(training-time optimization pressure)会降低思维链的可监控性?该文件指出,训练过程的特性可能会对可监控性产生重大影响。但是,目前人们依旧不清楚的是:在可监控性不发生显著下降的前提下,到底允许存在什么类型?以及允许存在多大程度的直接优化压力和间接优化压力?

再就是,模型是否会故意模糊其推理过程?当使用思维链监控作为安全措施时,一个显而易见的担忧是:如果模型知道自己的思维链正在被监控,那么思维链是否会变得更难以被监控?该文件指出,人们可以针对模型进行压力测试,以便查看它们是否能在不针对思维链监控器进行训练的情况下隐藏恶意推理。

同时,哪些类型的架构会降低思维链的可监控性?在连续潜在空间中进行推理的模型,即使不存在任何优化压力,也会天然地限制人们对其思维过程的了解。所以,人们应该研究的是:各种非标准架构在多大程度上降低了可监控性?以及在什么条件下仍然可能保留部分可监控性?例如,人们可以通过混合方法在利用潜在计算的同时,保持对于推理过程的部分可见性。

另外,如何构建更好的思维链监控器?该文件指出,业内人士应该专注于通过零样本提示,来让能力较弱的语言模型充当监控器。并指出,未来人们可以通过利用测试时计算来探索提高监控器的性能。例如,监控器可以基于推理模型、或者允许它们通过向智能体提问来对其进行询问。该文件还指出,另一个探索方向则涉及到针对监控器进行对抗训练,以便对抗那些试图隐藏不当行为的智能体。


(https://www.technologyreview.com/topic/artificial-i)



倡议开发者跟踪模型的思维链可监控性,并将其视为提升模型安全性的重要部分

如果高度智能的 AI 智能体具有可解释性,那么它们所带来的诸多风险将会更加容易被解决。尽管人们在应用机制可解释性上已经取得显著进展,但是要将其转化为可靠、实用的工具来监管大模型智能体,仍然需要进一步的努力。鉴于思维链可监控性所带来的独特机遇,该文件认为业内人士应该:

首先,开发有效的思维链可监控性评估方法,即开发并统一标准化的评估方法与指标,以便明确思维链何时具备了足够的可监控性。其次,当此类评估存在时,应在系统说明卡中公布评估结果。一旦可信的思维链可监控性评估方法具备可用性,开发者就应该定期在其模型上运行这些评估,并在模型的系统说明卡中报告评估结果、所用方法以及存在的局限性,并且要重复这一做法除非且直到这类评估被证明对其特定用例缺乏安全价值为止。再次,要在训练和部署决策中运用可监控性评分,即开发者在训练或部署特定模型时,应该将可监控性指标与其他能力评估和安全性评估一同纳入考量。这些决策需要基于对于风险的整体评估,其中应该包含思维链的可监控性、监控系统的性能特征,以及对于模型不当行为倾向的预估。

另一种潜在的干预措施是,开发者要让思维链变得可见,从而允许人类用户发现问题并报告问题。然而,这可能也会产生适得其反的效果:它可能会带来巨大的压力,以至于迫使人们直接监督思维链以便使其“看起来安全”,并试图规避常见的法律风险和道德风险,而这可能会破坏思维链的可监控性。关于此,本次文件的作者们表示暂时对此不做任何明确建议。



思维链监控是一种补充方案,而非替代方案

在关注思维链监控所带来机遇的同时,还存在其他一些限制。

该文件指出,在不需要展示思考过程的情况下,思维链监控的确能够检测到一些不当行为,但其本身并不能够提供有力的安全证据。假如恶意推理能够在激活过程中完成,那么即使模型没有明显的恶意推理,其预测结果也可能会出现偏差。因此,该文件建议人们不要因为此类监控而产生虚假的安全感。

同时,针对需要推理的危险任务进行监控,可能无法捕捉到所有的相关危害。因为,一些危险任务可能根本不需要太多推理,而且随着模型能够在其激活过程中进行更复杂的推理,能够满足外部化推理特性的任务也会越来越少。

在更高级的具备更好情境感知能力的模型中,思维链监控可能会停止工作。所以,未来的模型可能会通过抑制其“展示思考”的倾向来规避检测,并会在需要开展推理时故意针对推理过程进行模糊处理。

而假如要坚定地维护当前思维链行为的既有模式,那么可能会以牺牲更加有效的安全干预措施为代价。尽管这一观点尚未得到业内共识,但是本次文件认为,某些形式的过程监督有可能会通过针对模型推理进行有效干预,从而能够显著地改善模型的对齐性。因此,假如开发者所采取的策略仅仅致力于无条件地维持现有思维链的可监测性形式,那么可能会错失此类安全干预的潜在价值。

基于这些原因,本次文件建议将思维链监控作为现有安全研究方向的补充,而非作为替代方案。

需要说明的是,所有监督方法和监管方法都存在局限性,这会让一些不当行为成为“漏网之鱼”。因此,在打造未来 AI 智能体的安全措施上,可能需要采用多个监控层,而且这些监控层最好具有互不相关的故障模式。总的来说,思维链监控为 AI 安全措施提供了宝贵补充,让人们得以一窥 AI 智能体是如何做出决策的。然而,该文件指出目前的思维链可见度能否持续下去尚无定论。所以,业内人士应该充分利用思维链的可监控性,并研究如何保持其可监控性。

参考资料:

https://techcrunch.com/2025/07/15/research-leaders-urge-tech-industry-to-monitor-ais-thoughts/

https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

https://venturebeat.com/ai/openai-google-deepmind-and-anthropic-sound-alarm-we-may-be-losing-the-ability-to-understand-ai/

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。