当前位置: 首页 » 资讯 » 新科技 » 正文

科学家提出⼤模型计算裂脑综合征概念,揭示Transformer三大硬伤

IP属地 中国·北京 编辑:赵云飞 DeepTech深科技 时间:2025-07-22 20:13:06

“其实我已经不需要发论文,也已经很久不再自己动手写代码做实验了,但是为了这篇论文我重新下场做实验。主要动力是希望把事情搞清楚。”亚马逊云上海人工智能研究院院长张峥告诉 DeepTech。


图 | 张峥(https://zzhang-cn.github.io/)

在最近一篇论文中,他提出了计算裂脑综合征的新概念,借此阐述了大模型的一个根本性缺陷:即它们能够清晰地阐述正确的原则,却无法可靠地应用这些原则。也就是说,从结构角度来看,大模型并没有掌握规则,它只是表面上看懂,并没有真正做符号上的推理。



知其然而不能其然

张峥举例称,包括人类在内的生物在进化过程中获得了很多能力,但是生物却无法描述自己为何拥有了新的能力。“能而不知其所以然”(Competence without Comprehension)是美国哲学家丹尼尔·克莱门特·丹尼特(Daniel Clement Dennett III)提出的一个观察。对于生物来说它们更多是因为环境压力而长出了某种能力,比如变色龙为了躲避敌人而让自己的皮肤改变颜色。但是,这个能力是怎么来的?它的规则和计算是怎样的?变色龙本身并不清楚。

但对于大模型来说却正相反,它们展现出理解而不能执行的现象,能够流利地解释原理,却无法可靠地执行这些原理。当让它抽象地判断两个数字的大小、血缘关系如何分析时,它可以讲得头头是道,但是它自己执行起来却经常搞错。而本次论文正是研究了这一问题。

尽管当前有很多 Transformer 的变种,但只要依赖大量文本的无监督训练,只要模型大框架不变,就会面临一个本质问题:模型能够回答问题,但本身并不是在做计算,因此不具备抽象的推理能力。所以,涉及多个步骤的问题,即便看上去非常简单,往往都不能放心地交给大模型。

本次研究之中,张峥通过受控实验和架构分析揭示了这种现象的根本原因,即这种计算裂脑综合征源于 Transformer 架构的三个相互依赖的约束条件。值得注意的是,单独的任何一个约束都不会致命,但它们系统性地相互强化,阻止了大模型在理解和能力之间建立可靠的桥梁。



Transformer 架构中的三个限制

上下文平均化

上下文平均化,是 Transformer 架构中的第一个限制。不管计算是黑盒还是明盒,都会有输入和输出。假如你面前有一个计算器,不管你在上面按什么数字,在计算之前这些输入都会遵循数学上的规律,比如它明确地知道 9 比 11 小了两个数字。更重要的是,这些数字在计算器的内部表示中保持着等距性质——数值之间的大小关系在表示空间中得到一致的保持。

但是,由于大模型在训练的过程中,它本身的向量表达中混合了很多上下文的内容。比如,“9.11”可以是一个软件的版本,也可以指一个历史事件,因此当大模型看到“9.9”和“9.11”的时候也混入了软件版本或日期等信息。这种上下文混合破坏了数值表示的等距性质。大模型会把所有单个输入都压缩成为一个向量,这个向量包含了训练中出现过的所有上下文的信息。因此,无论是让大模型做数学计算还是做日期计算,都要把数值的性质去模糊化,而这个是大模型不能自动做的。


(https://arxiv.org/pdf/2507.10624)

对于人类来说,当我们说 9.11“小于”9.9,我们是在比较两个数值;而说“大于”时可能是指版本号。人类能够根据上下文自动进行域绑定,将同一个符号映射到不同的语义空间。

但是,大模型并不会做这种转化。在训练完成后,所有 token 都隐含了上下文的语义关系,导致它在做数学计算时出现混乱。

此前,业内已有研究将 Transformer 从零开始训练,专门针对数学或逻辑推理单一领域,似乎能够找到一些“脑回路”。但这种单域训练的结论无法泛化到通用场景。

对于通用大模型,优化目标是在所有上下文中都表现良好,这必然导致不同上下文的混杂。这种上下文污染是结构性的、不可避免的。即使在逻辑推理中平衡“A 是 B”和“B 是 A”的训练频率,模型仍会为每种句法形式学习独立的模式匹配规则,而不是理解对称的逻辑关系。

计算不可能性

计算不可能性,是 Transformer 架构中的第二个限制。

假设输入向量没有被上下文污染,大模型要做的似乎就是一个简单的乘法。但这种“简单”只是假象。要实现精确的乘法,模型参数必须恰好优化到能够激活专门的乘法回路——这在理论上是不可能的。

从数学角度看,问题的根源在于架构限制。基于 ReLU 激活函数的前馈网络只能实现分段线性函数,而精确的符号运算(如乘法)需要非线性变量交互。这种交互无法通过权重配置单独实现,构成了架构上的根本障碍。

因此,Transformer 模型无法直接执行乘法,更无法处理任何高阶算法,只能进行近似模拟。大模型本质上采用“分层拟合”策略:将复杂运算拆解成小块,通过多层协调逐步逼近目标输出。


(https://arxiv.org/pdf/2507.10624)

这揭示了大模型的核心机制——"知识打碎-重组"过程。如何拆解、如何重组完全依赖于训练过程和语料分布,这正是大模型可解释性面临根本困难的原因。

指令执行分离

指令执行分离,是 Transformer 架构中的第三个限制。

以竖式乘法为例:人类执行时需要按位对齐、逐位相乘、记录部分积、最后求和——这是一套完整的符号计算算法。大模型可以将这个算法背得烂熟,甚至能够教授给儿童,展现出完美的“理解”能力。

但是,当轮到自己执行时,大模型依然只是在做拟合,无法自动调用已学会的算法。

问题的根源在于训练目标的无差别性。对于下一个 token 预测而言,算法描述和具体计算实例都只是需要预测的文本序列,训练过程不存在将两者自动绑定的机制。换句话说,“算法知识”和“执行能力”在模型内部占据着不同的表征空间。


(https://arxiv.org/pdf/2507.10624)

这种分离是结构性的:大模型天生无法将抽象算法自动匹配到具体实例。指令理解和执行实现在几何空间上的分离,正是“计算裂脑综合征”的根本原因。



何时用大模型,何时不用大模型

张峥指出,这篇论文揭示了一个根本性问题:这种“计算裂脑”现象具有普遍性——无论数值计算还是逻辑运算,只要涉及符号计算和算法应用,都会出现这一问题。“理论上可能不存在可解释的神经计算回路,至少当前的通用大模型没有,只有一些抽象的统计规律。”

这带来了深刻的可解释性问题。大模型自我生成的解释(如思维链)以及机制可解释性研究,从理论上说都可能是"不忠实的",存在训练路径依赖。在当前 Transformer 架构下,这个问题是结构性的,需要根本性创新而非渐进式改进。

这一发现对高风险应用意义重大。在医疗诊断、法律分析等关键领域,不应将大模型作为独立推理系统,而需要"脚手架"、外部验证或混合架构支持。

那么,张峥希望这篇论文带来怎样的影响?首先是让大家明确何时能用、何时不能用大模型。

“大模型的工具调用历来被视为效率优化,但这篇论文指出:工具调用不是可选项,而是架构必需。”这种认知转变带来新挑战:攻击面大幅增加,同时面临关键的元认知问题——大模型需要准确判断何时调用工具,避免多步调用中的累积错误。

张峥还提醒可解释性研究者:狭窄范围内的可解释性研究缺乏泛化性。一旦构建通用大模型,这些研究基础可能完全失效。

“既要认识大模型的强大,也要认识其局限。”以 AI+Science 为例,大模型无法学会可泛化的理论公式。“如果模型无法通过观察推导普适定律或可泛化的算法,就不具备真正智能。大模型刷榜意义不大,关键是完成科学研究闭环。”他说。

这项研究的深层意义在于为下一代智能系统指明方向:需要元认知脚手架、提升表示能力、原则性执行的架构支持——能够推理而非仅仅反应的系统。

当前约束似乎不可避免:上下文平均化源于多样化语料预测,前馈网络被迫进行模式组装而非原则计算。计算裂脑综合征将持续存在,除非通过根本性架构创新解决。



“我只是一个好奇心很重的研究者”

对于自己在当前 AI 领域的角色定位,张峥表示自己只是一个好奇心很重的研究者,他说自己当然希望 AI 能够蓬勃发展,但也希望国内 AI 圈不要过于聚焦刷榜,不要总是围绕一个小补丁做改进。他说:“我还是希望大家冷静地回到一些貌似很简单但深挖下去很有趣的问题上,沉下心做一些比较基础的研究。”

如果说写这篇论文是为了带给大模型领域一些新的思考,那么作为一名曾在上海纽约大学教过书的老师,张峥也于 2025 年春天启动了一个独特的尝试:用大模型来教大模型做课程。他说这是一个"活"的课程,可以根据最新的研究成果来翻新课程,同时可以成为科研从业者的很好的老师。总之,作为中国 AI 研究领域的前辈,他还将继续行走下去,“可以做、值得做的问题太多了。”他说。

参考资料:

1.https://zzhang-cn.github.io/

2.https://arxiv.org/pdf/2507.10624

3.https://github.com/zzhang-cn/LLM4LLM/

4.https://www.goodreads.com/user/show/50187028-zheng-zhang

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。