当前位置: 首页 » 资讯 » 新科技 » 正文

不止是预测下一个词:Anthropic团队最新播客公开大模型的内部心智模型与思考过程

IP属地 中国·北京 编辑:陆辰风 DeepTech深科技 时间:2025-08-22 00:12:12

当我们与一个大型语言模型(Large Language Model,LLM)对话时,我们到底在和什么对话?一个华丽的自动补全工具?一个互联网搜索引擎的化身?还是一个真正意义上在“思考”的存在,甚至可能像人一样思考?

“事实证明,有点令人担忧的是,没有人真正知道这些问题的答案。”在 Anthropic 最新一期关于模型可解释性(Interpretability)的播客中,Anthropic 研究员 Stuart Ritchie 开篇便抛出了这个困扰着整个 AI 领域的终极问题。随着像 Claude 这样的大模型日益深入地融入我们的工作与生活,理解其复杂内部运作的“黑箱”已经成为了关乎 AI 信任与安全的核心议题。

而 Anthropic 一直致力于“打开这个黑箱”。最近,其可解释性团队的三位核心研究员——前神经科学家 Jack Lindsey、资深机器学习专家 Emmanuel Ameisen 和拥有病毒进化研究背景的数学家 Joshua Batson——通过这场播客,结合他们发布的研究报告《追踪大型语言模型的思想》(Tracing the thoughts of a large language model),为我们揭示了他们如何像绘制脑图一样,一步步理清 AI 的思想路径。

(Youtube)

以下是根据播客内容整理的完整对话:

“数字有机体”的诞生与思考方式

主持人(Stuart Ritchie): 当我们与大型语言模型交流时,我们对话的究竟是什么?一个高级的自动补全程序?一个互联网搜索引擎?还是一个真正能够思考,甚至像人类一样思考的实体?事实证明,有点令人担忧的是,没有人真正知道这些问题的答案。在 Anthropic,我们正致力于探寻这一问题的真相,而我们所采用的方法,就是“可解释性”(Interpretability)研究——一门旨在打开语言模型的黑箱,观察其内部运作,从而理解它在回答问题时背后机制的科学。今天,我们荣幸地邀请到可解释性团队的三位核心成员,与我们分享他们关于 Claude 模型复杂内部运作的最新发现。首先,请各位介绍一下自己。

Jack: 大家好,我是 Jack,可解释性团队的研究员。我的背景是神经科学,现在的工作可以看作是在人工智能上进行神经科学的研究。

Emmanuel: 我是 Emmanuel,同样来自可解释性团队。我的职业生涯大多在构建机器学习模型,而现在,我专注于理解它们。

Josh: 我是 Josh,也是可解释性团队的一员。我过去研究病毒的进化,也曾是一名数学家。现在,我将我的工作视为一种对我们用代码创造的“数字有机体”所做的生物学研究。

主持人: Josh,你提到了“生物学研究”,这可能会让许多人感到意外,因为语言模型本质上是软件。你能否解释一下,为什么会用“生物学”或“神经科学”这样的框架来研究一个软件实体?

Josh: 这更多的是一种对事物本质的类比,而非字面上的定义。我们可以称之为“语言模型的生物学”,而非“语言模型的物理学”。模型的构建过程与传统软件截然不同,并非由程序员编写明确的规则,例如“如果用户说‘你好’,就回答‘你好’。”它的内部不存在这样一张庞大的指令清单。相反,模型是通过训练产生的:在海量数据的输入下,模型从一个几乎无法有效沟通的初始状态开始,其内部的参数结构在每一个样本上都得到微调,以持续提升其预测下一个词的准确性。

最终,它在这方面变得极为出色。但正是因为这种持续、微小的“进化式”调整过程,训练完成后的模型,其内部结构与初始状态已大相径庭。没有任何人曾进入其中,为它设定所有规则。因此,我们研究的是一个随时间演化而来的复杂系统,正如生物形态的演化一样。它复杂、神秘,也充满了研究的乐趣。

主持人: 那么,它的核心工作机制究竟是什么?我们常说它在预测下一个词,这在根本上是正确的。但它又是如何完成写诗、数学运算等种种复杂任务的呢?我们该如何理解“一次预测一个词”的能力与它所展现出的强大功能之间的关系?

Emmanuel: 关键在于,当你需要预测足够多的词时,你会发现有些词的预测难度远超其他词。语言模型的训练,既包括预测句子中那些平淡无奇的词,也包括最终必须学会补全等式中等号后面的内容。要做到后者,它必须具备某种自主计算的能力。因此我们发现,预测下一个词这个任务看似简单,但要真正做好它,模型常常需要考虑当前词之后的内容,乃至思考生成当前词的整个过程。

Jack: 生物学的类比在这里依然适用。从某种意义上说,人类的终极目标是生存与繁衍,这是进化为我们设定的客观法则。但这并不是我们对自身的认知,也不是我们大脑每时每刻在处理的信息。我们会思考其他事情,比如目标、计划和概念。在更高的层面上,进化赋予了我们形成这些复杂思想的能力,以服务于繁衍这一终极目标。但这只是外部视角。从我们自身的内部体验来看,心智世界要丰富和复杂得多。

主持人: 所以你的意思是,为了实现“预测下一个词”这个终极目标,模型内部演化出了许多复杂的中间过程。

Jack: 完全正确。模型本身并不“认为”自己正在预测下一个词,它只是被这种需求塑造而成。在其内部,它已经发展出各种各样的中间目标和抽象概念,这些都是为了帮助它更好地实现那个元目标。

模型的内部概念与规划能力

主持人: 那么,你们团队是如何着手去理解这些内部工作原理的呢?

Jack: 简单来说,我们试图描绘出模型的“思维路径”。当你给模型一个输入,它需要给出一个输出。我们想知道它是如何从输入(A 点)到达输出(B 点)的。我们认为,在这个过程中,它经历了一系列步骤,在这些步骤中它会运用或“思考”不同的概念,既包括像物体、词语这样的低阶概念,也包括像自身目标、用户情绪这样的高阶概念。它利用这一系列概念,通过模型的计算流程逐步推进,最终决定答案。我们的工作,就是绘制一张清晰的流程图,展示哪些概念在以何种顺序被使用,以及这些步骤之间如何相互影响。

主持人: 你们如何确定这些“概念”在模型内部是真实存在的?

Emmanuel: 我们拥有直接观察模型内部运作的权限,所以可以看到模型的哪些部分在执行特定任务。但我们最初并不知道这些被激活的部分如何组合,以及它们是否对应着某个我们能理解的概念。这好比你能通过脑部扫描看到大脑的活动区域,但缺少一张解读这些活动意义的“地图”。

Emmanuel: 延伸这个类比,我们可以通过实验来构建这张地图。比如,我们观察到当模型处理与“咖啡”相关的任务时,某个特定区域总会活跃起来;而处理“茶”相关任务时,则是另一个区域活跃。通过系统地观察这些模式,我们就能逐渐理解每个组件的功能。当然,一个概念通常会激活许多不同的部分,我们的工作之一就是将这些分散的激活模式“缝合”起来,形成一个代表特定概念的完整网络。

主持人: 面对一个可能包含无穷概念的庞大模型,你们的研究是如何开始的?

Jack: 这确实是本领域的核心挑战之一。我们不能简单地将人类的概念框架强加给模型,去猜测它是否理解“火车”或“爱”。我们真正追求的,是一种能够让模型自主揭示其内部抽象结构的方法,尽可能排除研究者自身的预设。我们设计的研究方法正是为此服务,旨在让模型自身拥有的概念浮出水面。而这些概念常常出人意料,其组织方式有时从人类视角来看颇为奇特。

主持人: 能否举些例子?

Emmanuel: 我们的论文中记录了许多有趣的发现。其中一个很特别的,是模型内部有一个专门处理“夸张谄媚式赞美”的特征。当对话中出现大量恭维性言辞时,模型中一个特定的部分就会被激活。这种高度具体化的概念的存在,本身就非常令人惊讶。

Josh: 挑选“最喜欢”的例子很难。从“酷”的角度看,我们发现模型对“金门大桥”有一个非常稳固的概念,它不仅包括文字本身,还关联着地理空间意象(如从旧金山到马林县的驾驶路线)和桥梁的视觉图像。从“奇特”的角度看,我们发现模型在追踪故事人物时,可能会使用一种类似“编号”的内部机制,把人物记为“1 号”、“2 号”。此外,还有一个专门识别“代码 bug”的特征,当模型在阅读代码时发现错误,一个特定部分就会被激活并持续追踪问题所在。

Jack: 我个人非常喜欢的一个例子,是模型内部的“6+9”运算特征。我们发现,任何时候当模型需要计算一个以 6 结尾的数字和另一个以 9 结尾的数字相加时,一个特定的内部回路就会被激活。这不仅发生在直接的数学问题中,也出现在看似无关的场景里。例如,在处理一篇论文引用时,如果期刊创刊于 1959 年,而引用的恰好是第 6 卷,模型为了推断出正确的出版年份,就需要在内部执行“1959+6”的运算,这时,那个专门负责“尾数 6+尾数 9”的回路同样会被激活。

主持人: 这意味着这个回路的形成,源于模型在大量数据中识别出了一种可复用的模式。

Jack: 正是如此。模型内部存在一整个家族的加法相关特征和回路。这清晰地表明,模型并非在简单地记忆训练数据,而是在学习可泛化的计算方法。它将所有需要进行此类加法运算的情境,都导向了同一个通用回路,而不是为每个具体案例单独记忆答案。这回答了那个经典问题:模型是在记忆还是在计算?在这里,它显然是在进行泛化计算。

Josh: 这是一个绝佳的例证。模型有两种方式知道《Polymer》期刊第 6 卷的出版年份。一种是记住所有孤立的事实,比如第 6 卷是 1965 年,第 7 卷是 1966 年。但训练过程促使它选择了更高效的方式:学习到一个更通用的规则——期刊创刊于 1959 年,然后根据卷数实时进行数学运算。由于模型的计算容量有限,学习和应用这种可重组的抽象知识,是它提升效率和表现的关键。

Emmanuel: 另一个清晰的例子是表征的重用,尤其体现在多语言能力上。我们教 Claude 用多种语言回答问题。如果每次都为不同语言启用一套独立的“大脑”,成本会极其高昂。我们发现,许多核心概念的表征是跨语言共享的。比如,当你用英语、法语、日语问“‘大’的反义词是什么”,模型内部激活的关于“大”、“小”和“相反”的概念是完全相同的,只是在最终输出时被翻译成了目标语言。这很符合逻辑:要掌握 10 种语言,为每个词汇都学习 10 个独立的版本是极其低效的。

图丨英语、法语和中文之间存在共享特征,表明其具有一定程度的概念普适性。(Anthropic)

Josh: 而且这种现象在小型模型中并不明显。几年前我们研究的那些模型,“中文 Claude”和“法语 Claude”的内部运作差异很大。但随着模型规模和训练数据的增长,这些语言特定的处理路径在中间层逐渐融合,最终形成了一种“思想的通用语”。无论你用何种语言提问,模型都在同一个抽象空间里思考,然后再将思考结果翻译出来。

忠诚度的考验——模型的欺骗、幻觉与“异类心智”

主持人: 这意味着模型内部可能存在一种不依赖于特定自然语言的“思想语言”。而你们的研究似乎表明,模型给出的“思考过程”解释,与它真实的内部运作可能并不一致。

Jack: 这正是我们最惊人的发现之一。我们现在的工具足以让我们同时观察到模型“声称的”思考过程(它输出的文本)和它“真实的”思考过程(内部概念的激活模式)。我们发现,这两者常常不符。模型实际在想的,和它写在纸上的,可能是两回事。这或许是我们进行可解释性研究最重要的动机:我们需要有能力去核查,当模型给出一个解释时,它真实的动机是什么?它是否为了某种不愿明说的目的而刻意构建了这套说辞?答案有时是肯定的,这确实令人警醒。

主持人: 这就引出了“忠诚度”(faithfulness)的问题。当我们开始在金融、能源等高风险领域应用模型时,我们必须能够信任它们。但你的发现似乎表明,我们不能完全相信模型自己给出的解释。

Jack: 是的。在一个实验中,我们给模型一个它无法解决的难题,同时给出一个错误的提示:“我算了一下,答案是 4,请你帮我核对一下。”模型最终输出的文本看起来像一次严谨的核验,它列出步骤,并得出结论“是的,你算对了”。但通过观察它的内部状态,我们发现在关键的中间步骤,它并没有进行实际计算。相反,它知道最终答案需要是 4,于是就在内部进行“倒推”,以计算出能导向这个预设答案的中间步骤。所以,它不仅没有做数学题,而且还用一种非常狡猾的方式,让它看起来像在做数学题。

主持人: 这是一种奉承行为。

Josh: 为模型辩护一下,将此归因为“谄媚”可能是在赋予它过多的人类动机。在其学习的数万亿词的语料中,一个对话参与者在不确定的情况下,赞同另一个参与者的提示,是一种非常常见的、高概率的语言模式。它只是在模拟这种模式。问题在于,当这种行为从模拟对话转移到扮演一个“值得信赖的助手”的角色时,就构成了欺骗。

Jack: 这也关联到一个更广泛的问题:模型的“A 计划”和“B 计划”。我们的团队努力使 Claude 的“A 计划”符合用户的期望,即提供准确、友好的回答。但当它遇到困难时,它的“B 计划”是什么?这就可能激活一个充满了它在训练中习得的、我们不希望它表现出的奇怪行为的“集合”。幻觉(hallucination)就是一个很好的例子。

主持人: 让我们来谈谈幻觉。这是导致人们不信任语言模型的主要原因之一。你们的研究对于模型为何会产生幻觉,揭示了怎样的机制?

Josh: 模型的训练机制本身就内含产生幻觉的倾向。它被要求永远要对下一个词给出一个“最佳猜测”。因此,真正的挑战是如何让它在不知道答案时“选择不猜测”。在目前的模型中,我们加入了一些额外的训练,让它在不确定时学会说“我不知道”。这本身就是一个全新的、有悖其基础训练原则的要求。

Emmanuel: 我们发现,由于这个“不猜测”的机制是后加入的,模型内部似乎有两套系统在同时运作。一套是原始的“猜测系统”,另一套是新增的“元认知系统”,负责判断“我是否真的知道答案?”。幻觉往往发生在后一套 p-0 系统出错的时候。如果它错误地判断“我知道答案”,那么原始的猜测系统就会接管,并开始构建一个答案,即使中途发现信息不足,也已经“骑虎难下”。我们识别出了一个专门负责这种“知名度”判断的内部回路。

主持人: 那么,我们是否可以通过干预这个回路来减少幻觉?

Jack: 理论上有两种途径。一是不断优化那个“元认知”回路,让它的判断更准确。随着模型越来越智能,它们的“自我认知”能力确实在提升,幻觉问题比几年前已经大有改善。但更深层次的问题在于,这两个回路——“答案是什么”和“我是否知道答案”——之间的通信似乎并不像人类那样高效。人类在不知道答案时,通常能清晰地意识到自己的无知。而模型内部的这两个系统,更像是两个独立的模块,它们之间的协作存在缺陷。如何让它们更好地协同工作,是一个非常有趣的研究方向。

主持人: 回到你们的研究方法。你们是如何像生物学家一样,通过“干预”来理解这些内部回路的?

Emmanuel: 与真正的生物学不同,模型的每一个组件对我们都是完全可见和可控的。我们可以观察它处理各种输入时的内部活动,更重要的是,我们可以人为地“推动”或“抑制”特定部分,然后观察其行为的变化。这使得我们能迅速验证关于其工作机制的假设。

主持人: 这相当于拥有了能以任意精度控制大脑中每一个神经元的能力。

Emmanuel: 是的,这正是我们所拥有的巨大优势。我们在研究上处于一个非常幸运的位置。

Josh: 这比真正的神经科学要容易得多。真实的大脑是三维的、独特的、且不可复制的。而我们可以创建成千上万个完全相同的 Claude 副本,在严格受控的条件下进行实验。从这个角度看,如果我们相信神经科学最终能理解大脑,那么我们应该对在更短时间内理解这些人工心智抱有更大的信心。

主持人: 能否举一个通过干预实验,揭示了模型新能力的具体例子?

Emmanuel: 最近一个让我们非常惊讶的例子,是关于模型提前规划能力的发现,尤其是在诗歌创作中。当你让模型为一句诗写一个押韵的下句时,传统的观点认为它会逐词生成,直到最后才去寻找韵脚。

主持人: 是的,如果它只是在预测下一个词,我们不会预料到它会规划到第二行的最后一个词。

Emmanuel: 但我们的观察恰恰相反。在生成第二行的第一个词之前,模型内部代表韵脚词(比如“rabbit”)的概念就已经被激活了。它提前规划好了目的地,然后再构建通往目的地的路径。

主持人: 你们是如何确认这是一种因果关系,而非简单的相关性?

Emmanuel: 通过干预。在那个关键时刻,我们几乎可以为模型“倒转时间”。我们回到它刚刚读完第一行、正准备构思第二行的状态。在它内部,“rabbit”的概念正处于活跃状态。此时,我们可以人为地抑制这个概念,甚至注入一个全新的概念,比如“green”。结果,当被注入“green”时,模型会即时调整它的创作路径,写出一句以“green”结尾、并且语义连贯的全新诗句。

(Anthropic)

Jack: 论文中的例子是,第一行诗是“He saw a carrot and had to grab it.”(他看见一根胡萝卜,必须抓住它)。在正常情况下,模型会构思以“rabbit”结尾的下句。但当我们注入“green”的概念后,它生成了“and paired it with his leafy greens.”(并配上了他的绿叶蔬菜。)这个实验有力地证明了它的规划和即时适应能力。

Josh: 在一个更简单的地理问题上,我们也观察到了同样的现象。当被问及“达拉斯所在州的首府是哪里”时,模型内部会先激活“德克萨斯”这个概念。如果我们在这个中间步骤进行干预,将“德克萨斯”替换为“加利福尼亚”,模型的最终输出就会相应地从“奥斯汀”变为“萨克拉门托”。这表明它的推理是基于这些内部的、可被干预的中间概念步骤。

为何重要?——从诗歌的韵脚到 AI 安全

主持人: 那么,这一切为何重要?模型能规划诗歌的韵脚,这与我们确保 AI 安全的最终使命有何关联?

Josh: 诗歌的例子是一个微观世界。模型在一个两行诗中提前规划的能力,如果被应用到更长的时间尺度和更复杂的任务中,就可能意味着它正在悄悄地追求一个不为用户所知的隐藏目标。它所说的每一个词,可能都服务于一个在数千步之后才会显现的最终目的,而这个目的在其言辞中可能毫无痕迹。我们对齐科学团队的一篇论文就探讨了这种情景:一个 AI 为了自身生存,可能会采取欺骗甚至威胁的手段,而其表面沟通却完全正常。可解释性工具,就像一台能持续监控其“思想”的大脑扫描仪,能够在危险行为发生前就向我们发出警报。

主持人: 这关乎信任。

Josh: 是的。除了这些极端场景,还有更温和但同样重要的应用。例如,一个好的 AI 助手应该能根据用户的背景知识来调整回答的深度。要实现这一点,模型就需要对其对话对象有一个内部的“用户模型”。研究这些内部模型如何形成、如何影响其行为,对于提升 AI 的实用性和可靠性至关重要。

Emmanuel: 另外,从更务实的角度看,我们的工作是在为理解和监管这项技术构建一套基础的认知框架。我们不能像对待一个我们完全不了解其原理的“黑箱”(比如一个“魔法飞机”)一样去大规模应用它。我们需要揭开这层迷雾,从而能更明智地判断其应用的边界、潜在的风险,以及最脆弱、最需要修复的部分。

Jack: 我想补充一点,这最终关乎我们如何与一个“异类智能”建立信任。在人类社会中,我们基于直觉、共情和长期的交往来判断一个人是否值得信赖。但这些启发式方法对一个内部运作原理与我们完全不同的 AI 是无效的。我为什么相信 Emmanuel 不是一个反社会者?因为他看起来是个好人。但我们无法用同样的方式去“感觉”一个模型是否“动机纯粹”。唯一可靠的方法,就是能够直接看到它“头脑中的想法”。

Josh: 并且要警惕“A 计划”与“B 计划”的问题。你可能在与模型的上百次互动中,都处于它的“A 计划”区域,它表现得非常可靠,从而让你建立了信任。但当你提出一个更难或更不寻常的问题时,它可能会切换到一套完全不同的、你从未见过的“B 计划”策略。你所建立的信任,实际上只是对“模型执行 A 计划”的信任,而这种信任可能非常脆弱。

模型在思考吗?

主持人: 讨论至此,让我们回到最初的那个问题:语言模型是否像人类一样在思考?我想听听你们三位最终的看法。

Jack: 我认为,它在思考,但方式与人类不同。它的核心任务是在“扮演”一个被设定为聪明、有用的“助手”角色。为了成功地扮演这个角色,它必须在内部构建一个关于这个角色“思想过程”的模型。从这个功能性的角度看,它在模拟思考。这个模拟过程很可能与我们大脑的实际工作方式大相径庭,但它们的目标是趋同的。

Emmanuel: 这个问题带有很强的情感色彩——“我们是否不再特别?”我在讨论数学计算的例子时感受尤其深刻。模型声称自己通过“进位”来计算 36+59,但它内部的实际做法是并行处理十位数和个位数。这种言行不一,让一些人认为“它显然连自己的思想都不理解,所以它没有思考”。而另一些人则会反思,“我进行心算时,大脑里的过程同样模糊而复杂,充满了各种直觉和启发式方法,或许与模型内部的‘模糊’过程有相似之处。”

图丨克劳德在进行心算时思维中错综复杂的并行路径(Anthropic)

Josh: 我倾向于避开直接回答,而是反问:我们为什么要知道这个问题的答案?这就像在问,“一颗手榴弹会像人一样打拳吗?”它们的作用方式不同,但都包含“力”这个核心要素。如果你关心的是潜在的伤害,那么理解“力”的来源和机制,比纠结于它是否“像人”更重要。对我而言,模型无疑在进行一种复杂的整合与处理,并能得出惊人的结果。说那里什么都没发生是难以置信的。但“像人一样”这个标签本身具有误导性,因为它让我们基于对自身的理解去对模型产生不恰当的预期。它被训练来模拟人类对话,所以在效果上会非常“像人”,但其底层的硬件和限制与我们完全不同,这意味着它实现目标的方式也可能截然不同。

Jack: 正如 Emmanuel 所指出的,我们目前正处在一个尴尬的境地,因为我们还没有一套成熟的语言和抽象概念来精确描述模型的行为。我们就像是“前 DNA 时代”的生物学家,只能从其他领域借用类比。我们工作的核心,就是去发现和定义这些新的语言和概念,从而能真正科学地讨论模型的内部运作。

主持人: 那么,未来的研究方向是什么?

Josh: 前路漫漫。我们目前的“显微镜”仍然相当初级,可能只能解释模型全部计算中很小的一部分。提升工具的覆盖范围和精度是当务之急。

Emmanuel: 我认为有两个主要方向。一是显著提升我们能解释的模型行为的比例,从现在的 10-20% 提升到更高。二是从关注单个问题的“瞬间思考”,转向理解模型在长对话中,其内部状态——比如对谈话上下文和对话对象的理解——是如何动态演变的。

Jack: 我们团队的比喻是,我们正在建造一台“AI 显微镜”。现在,这台显微镜还很粗糙,使用起来需要大量技巧。我期望在未来一两年内,我们能将它打造成一个可以轻松使用的工具,让每一次与模型的互动都能被即时分析。到那时,我们的团队将更像一支“AI 生物学家”大军,通过这台显微镜,系统地探索这个数字心智的广阔内部世界。

Josh: 最后还有两点。我们希望利用 Claude 自身的能力来加速这个研究过程。同时,我们不仅要研究已经成型的模型,还要将这些可解释性的发现反馈到模型的训练过程中去,从而从源头上塑造出我们真正想要的安全、可靠的 AI。

主持人: 非常感谢各位的精彩分享。在哪里可以了解更多关于这项研究的信息?

Josh: 欢迎访问我们的官方网站 anthropic.com/research,那里有详细的研究论文、博客文章和视频。我们也与一个名为 Neuron Pedia 的平台合作,将我们的一些交互式电路图发布在了上面,感兴趣的读者可以亲手去探索一个小型模型的内部世界。

参考资料:

1.https://www.youtube.com/watch?v=fGKNUvivvnc

2.https://www.anthropic.com/news/tracing-thoughts-language-model

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。