当前位置: 首页 » 资讯 » 新科技 » 正文

北京大学团队开发新方法:大模型与人脑竟然有相似的语法处理机制

IP属地 中国·北京 科技行者 时间:2025-11-26 00:11:15


这项由北京大学心理与认知科学学院方方教授和王谦教授共同领导的研究,发表于2025年神经信息处理系统大会(NeurIPS 2025),论文编号为arXiv:2510.13255v1。研究团队还包括来自浙江大学、北京语言大学和北京通用人工智能研究院的多位学者,他们开发了一种名为"层次频率标记探针"(HFTP)的创新方法,用于研究大语言模型和人脑在处理语法结构时的相似性。

说到语言,我们每天都在用,但很少有人深入思考过我们的大脑是如何理解一句话的结构的。比如当你听到"老师在教室里给学生讲课"这句话时,你的大脑能瞬间理解"老师"是主语,"讲课"是谓语,而且还能知道这是一个完整的句子。同样,当我们使用ChatGPT或其他大语言模型时,它们也能理解并生成语法正确的句子。这就引出了一个有趣的问题:这些人工智能模型处理语法的方式,是否与我们人脑相似呢?

为了回答这个问题,研究团队开发了一种巧妙的方法。他们就像音乐制作人一样,把语言按照固定的节拍进行排列。具体来说,他们让每个音节或词汇以4赫兹的频率出现,也就是每秒4个音节,然后每两个音节组成一个短语(2赫兹),每四个音节组成一个句子(1赫兹)。这样做的好处是,如果大脑或AI模型真的能够理解语法结构,那么在分析它们的活动时,就应该能在对应的频率上看到特殊的信号。

这种方法的巧妙之处在于,它利用了频率分析技术,就像音响工程师使用均衡器来分析音乐中不同频段的声音一样。当研究人员分析大语言模型内部神经元的活动时,如果某个神经元专门负责处理句子结构,那么它就会在1赫兹频率上显示出强烈的反应;如果专门处理短语,就会在2赫兹上有反应。同样的原理也适用于分析人脑的电信号。

研究团队选择了六个主流的大语言模型进行测试,包括GPT-2、Gemma、Gemma 2、Llama 2、Llama 3.1和GLM-4。这些模型就像不同品牌的汽车一样,虽然都能完成运输任务,但内部构造和性能各有特色。通过HFTP方法,研究人员能够精确定位到每个模型中负责处理句子和短语的具体神经元,就像找到汽车发动机中负责点火的具体部件一样。

在人脑研究方面,团队使用了一种叫做立体脑电图(sEEG)的技术,这是一种能够直接记录大脑内部电活动的方法。他们邀请了26名中文母语者参与实验,让这些志愿者听中文语料,同时记录他们大脑各个区域的电信号。这就像在一座大城市的不同街区安装监控摄像头,观察交通流量的变化一样。

一、大语言模型内部的语法处理机制

研究结果显示,所有六个大语言模型都能够识别和处理语法结构,但它们的处理方式各不相同,就像不同的厨师都能做出美味的菜肴,但手法和风格各有特色。

在GPT-2模型中,研究人员发现负责处理句子和短语的神经元主要集中在中间层,就像一栋办公楼里,重要的会议室设在中间楼层一样。这表明GPT-2采用了一种平衡的语法处理策略,既不会过早做出判断,也不会延迟到最后才处理语法信息。

相比之下,Gemma系列模型呈现出完全不同的模式。在原始的Gemma模型中,语法处理神经元大量聚集在早期层次,就像一个急性子的人,总是在听完一句话的开头就急于理解其结构。有趣的是,升级版的Gemma 2在保持这种早期处理特点的同时,还增强了与人脑的相似性。

Llama系列模型则展现了另一种策略。Llama 2和Llama 3.1都倾向于将语法处理延迟到较深的层次,类似于一个深思熟虑的人,会等到收集足够信息后才进行综合分析。然而,令人意外的是,作为升级版本的Llama 3.1,其语法处理神经元的比例实际上比Llama 2要少。从Llama 2的11%下降到了Llama 3.1的4.5%,Gemma系列也出现了类似的下降,从27%降到了22%。

这种现象就像一家公司在扩大规模时,可能会减少某些专门部门的人员比例,转而投入到其他业务领域。研究人员认为,这些升级版模型为了在复杂任务上表现更好,可能将更多的计算资源分配给了其他功能,而不是专门的语法处理。

特别值得注意的是,所有六个模型都显示出一个一致的特点:负责处理句子的神经元和负责处理短语的神经元之间存在很强的关联性。它们的相关系数都在0.754以上,最高的达到了0.994。这就像一对配合默契的舞伴,一个人的动作总是能很好地配合另一个人的节拍。这种强相关性暗示着,这些模型在内部使用了相似的基础机制来处理不同层次的语法结构。

二、人脑中的语法处理网络

当研究人员将同样的方法应用到人脑研究上时,发现了一个与大语言模型截然不同的模式。人脑处理语法的方式更像是一个专业化的工厂,不同的车间负责不同层次的加工工作。

在人脑中,负责处理短语的区域主要集中在相对较低层次的脑区,比如初级听觉皮层(A1),这些区域就像工厂的原料处理车间,负责对输入的语言信息进行初步加工。随着信息向更高层次的脑区传递,句子级别的处理逐渐占据主导地位,特别是在下额叶回(IFG)等区域,这些就像工厂的最终装配车间,负责将各个部件组装成完整的产品。

与大语言模型不同的是,人脑中负责处理句子和短语的区域之间并没有显著的相关性。左半球的相关系数只有-0.169,右半球为-0.197,这些数值都不具有统计学意义。这种现象就像一个大型企业中,虽然不同部门都在为同一个目标工作,但它们的运作方式相对独立,各自有着专门的职责分工。

这种差异揭示了人脑和人工智能在信息处理策略上的根本不同。人脑倾向于使用专门化的区域来处理不同层次的语法信息,就像一条专业化的生产线,每个工位都有明确的职责。而大语言模型则更像是多功能的处理器,同一组神经元可能同时参与多种层次的语法处理。

研究还发现,人脑的语法处理主要集中在左半球,这与已知的语言功能侧化现象一致。左半球的语言区域包括颞上回(STG)、颞中回(MTG)、颞下回(ITG)和下额叶回(IFG)等,这些区域构成了一个紧密协作的语言处理网络。

三、大语言模型与人脑的相似性分析

当研究人员开始比较大语言模型和人脑的语法处理模式时,发现了一些令人惊讶的相似性和差异。这就像比较两种不同的交通系统,虽然最终目标都是运输,但路线规划和运作方式却各有特色。

所有六个大语言模型都与人脑的左半球表现出比右半球更强的相似性,这一发现与人类语言处理的左半球优势完全吻合。这种相似性不是巧合,而是反映了某种深层的处理原理。就像两个独立设计的导航系统,如果都选择了相同的最优路线,说明这条路线确实具有某种内在的合理性。

在具体的相似性数值上,GPT-2表现最为突出,与人脑左半球的相似度达到了0.654,在句子和短语处理上都保持了这一水平。这就像一个多才多艺的演员,能够在不同类型的角色中都表现出色。Gemma 2紧随其后,相似度为0.644,这也验证了升级版本在模拟人脑方面的改进。

然而,最令人意外的发现是关于模型升级的效果。按照常理,升级版本应该在各方面都表现更好,但现实情况却更加复杂。Gemma 2确实比原版Gemma表现更好,与人脑的相似性有所提升,就像一辆经过改良的汽车,在性能上确实有所改进。

但Llama 3.1的情况却截然相反。作为Llama 2的升级版,它与人脑的相似性实际上下降了,从0.645降到了0.514。这种现象就像一个原本擅长古典音乐的钢琴家,在学习了爵士乐和流行音乐后,虽然技能更全面了,但在古典音乐方面的专精度反而下降了。

研究人员认为,这种现象与模型的训练策略密切相关。Llama 3.1使用了更大规模、更多样化的训练数据,特别是包含了大量代码、推理和多语言内容。这种训练策略虽然提升了模型在复杂任务上的表现,但可能稀释了其在自然语言特定模式上的专精度。就像一个学生如果同时学习太多不同的科目,可能在每个科目上的深度都会受到影响。

在脑区对应关系的分析中,研究发现大语言模型与人脑语言网络的核心区域确实存在对应关系。左侧的初级听觉皮层(A1)、颞上回(STG)、颞中回(MTG)和下额叶回(IFG)等区域,在所有模型中都显示出较强的相关性。这些区域正是神经科学研究中公认的语言处理核心区域,就像城市中的商业中心区,总是最繁忙、最重要的地方。

四、跨语言处理能力的差异

为了更全面地理解大语言模型的语法处理能力,研究团队还进行了跨语言实验,测试这些模型在处理中文和英文时的表现差异。这就像测试一个翻译员在不同语言之间切换时的表现,能够揭示其语言处理机制的通用性和特异性。

在这项测试中,研究人员发现了一个有趣的现象:不同模型在处理多语言时采用了不同的策略。Llama 2、Llama 3.1和GLM-4倾向于将语言特异性神经元集中在较深的层次,这就像一个多语言使用者,在深度思考时才会动用特定语言的高级语法规则。而中英文通用的神经元则随着网络深度的增加而逐渐增多,表明这些模型在深层次上倾向于使用统一的表示方法。

Gemma系列模型则展现了不同的模式。原版Gemma在早期和晚期层次都有语言特异性和通用性神经元的分布,而Gemma 2则主要在早期层次就完成了这种分工。这种差异就像两种不同的学习策略:一种是边学边分类,另一种是先分类再深入学习。

GPT-2作为经过中文训练的模型,显示出最均衡的分布模式,各个层次都有相对平均的语言特异性和通用性神经元分布。更有趣的是,它显示出明显的处理顺序:英语特异性神经元主要出现在早期层次,而中文特异性神经元则更多出现在较深层次。这种模式可能反映了模型训练过程中语言接触的顺序和强度。

特别值得注意的是Llama 3.1的表现。虽然它号称支持176种语言,但在中文特异性神经元的数量上却明显少于其他模型,这可能解释了为什么它与中文母语者大脑的相似性较低。这就像一个号称精通多种语言的人,虽然能用很多语言进行基本交流,但在每种语言的深度理解上可能都不够专精。

五、自然语言场景下的验证

为了验证HFTP方法在真实语言环境中的有效性,研究团队还使用了更接近日常对话的自然语料进行测试。他们构建了八音节和九音节的中文语料,以及相应的八词和九词英文语料,这些语料来源于日常对话、新闻报道、文学作品和诗歌等多种文本类型。

在这些更复杂的语言材料中,HFTP方法依然能够检测到清晰的频率模式,但呈现出更丰富的层次结构。以八音节中文语料为例,系统能够检测到四个明显的频率峰:0.5赫兹对应整句节奏,1.0赫兹对应经典的四字短语节奏,1.5赫兹对应中等长度的2-3音节组合,2.0赫兹对应常见的双音节词汇节奏。英文八词语料也显示出相似的四峰模式,证明了这种方法的跨语言通用性。

九音节语料的结果更加有趣,频率峰移到了约0.44、0.89、1.33和1.78赫兹。这种移动就像音乐中的变调,虽然基本结构保持不变,但具体的频率会根据内容长度进行相应调整。其中1.33赫兹恰好对应丰富的三字短语结构,而0.89赫兹则反映了九字句中常见的韵律性停顿,通常出现在四到五字的位置。

当研究团队使用Wikipedia文本进行测试时,发现虽然同样能检测到句子级别(0.5赫兹)和各种短语级别(1.0、1.5、2.0赫兹)的信号,但这些信号相比于精心构建的语料要弱一些。这是因为Wikipedia文本包含了更多不规则的内容,比如混合文字、缩写、数字符号、参考文献片段等,这些内容就像音乐中的杂音,会干扰正常的韵律模式。

这些发现表明,HFTP方法不仅适用于实验室精心控制的语料,也能够推广到真实世界的复杂语言环境中。这种鲁棒性使得该方法具有广泛的应用潜力,就像一个好的检测工具,不仅在理想条件下有效,在复杂环境中也能发挥作用。

六、方法学创新与技术突破

HFTP方法的核心创新在于将频域分析技术巧妙地应用到了神经网络和脑科学研究中。这种方法就像给语言处理系统安装了一个精密的"心电图"设备,能够监测到平时察觉不到的内在节律。

在技术实现上,研究团队首先需要解决一个基础问题:如何为本来没有时间概念的大语言模型创造时间序列。他们的解决方案相当巧妙,人为地给每个输入单元分配了4赫兹的处理频率,就像给一个静态的画面添加了时间轴,让原本空间性的计算过程具有了时间维度。

对于人脑数据的处理,团队使用了试间相位一致性(ITPC)这一技术。这种方法的优势在于它对噪声相对不敏感,能够从复杂的脑电信号中提取出稳定的频率成分。就像在嘈杂的环境中依然能够听清特定频率的音调一样,ITPC能够从变化多端的脑电活动中识别出与语法处理相关的稳定模式。

为了确保研究结果的可靠性,团队还设计了严格的统计验证程序。对于每个检测到的频率峰,他们都会进行1000次随机重排测试,只有那些明显超出随机水平的信号才被认定为真正的语法处理标记。这就像质量检查员会对产品进行多次测试,确保每个通过的产品都符合标准。

在神经元选择策略上,研究团队采用了层次化的筛选方法。首先识别出在特定频率上有显著反应的神经元,然后通过Z分数分析进一步筛选出那些在实验条件和控制条件之间有显著差异的神经元。这种双重筛选就像招聘过程中的笔试和面试,确保最终选中的神经元确实具有专门的语法处理功能。

七、研究发现的深层意义

这项研究的发现具有多重意义,不仅推进了我们对人工智能的理解,也为神经科学和语言学研究提供了新的视角。

从人工智能发展的角度来看,这项研究揭示了一个重要现象:模型性能的提升并不总是意味着与人脑相似性的增加。这就像两条通往同一目的地的道路,虽然都能到达终点,但路径选择可能完全不同。Llama 3.1虽然在多项任务上表现优异,但其与人脑的相似性却下降了,这提醒我们需要重新思考什么是真正"智能"的人工智能。

这一发现对于人工智能的未来发展具有重要指导意义。如果我们的目标是创造更像人类思维的AI系统,那么仅仅追求任务性能的提升可能是不够的,我们还需要考虑AI系统的内在处理机制是否与人脑相似。这就像设计汽车时,不仅要考虑速度和效率,还要考虑驾驶体验是否符合人类的习惯。

从神经科学的角度来看,这项研究提供了一种全新的工具来研究大脑的语言处理机制。传统的脑科学研究往往需要复杂的实验设计和昂贵的设备,而HFTP方法相对简单、经济,且能够提供高精度的分析结果。这就像从显微镜发展到电子显微镜,为科学家提供了更强大的观察工具。

更重要的是,这种方法还能够扩展到其他认知功能的研究中。只要是具有层次结构的认知过程,都可能通过类似的频域分析方法来研究。这为理解人脑的复杂认知机制开辟了新的途径,就像打开了一扇通往大脑奥秘的新大门。

从跨学科合作的角度来看,这项研究展示了计算机科学、神经科学和语言学结合的巨大潜力。通过将人工智能的计算模型与大脑的生物机制进行对比,研究人员能够从两个方向同时推进知识的边界:既能改进AI系统的设计,又能加深对人脑工作原理的理解。

八、未来应用前景与社会影响

HFTP方法的应用前景十分广阔,在多个领域都有着潜在的重要价值。

在教育领域,这种方法可能revolutionize我们对语言学习和教学的理解。通过分析学习者大脑中语法处理的发展模式,教育工作者可以设计更有针对性的教学方法。比如,如果发现某个学生在短语层面的处理存在困难,就可以专门设计相关的练习来强化这一能力。这就像给每个学生提供个性化的健身方案,针对不同的弱项进行专门训练。

在临床医学方面,HFTP有望成为诊断语言障碍的新工具。传统的语言能力评估往往依赖行为测试,而HFTP可以直接观察大脑内部的语言处理机制,可能更早、更准确地发现问题。这种方法特别适用于那些难以进行行为测试的患者,比如昏迷患者或严重自闭症患者。

对于人工智能产业,这项研究提供了优化模型设计的新思路。如果我们希望AI系统更好地与人类协作,那么让AI的思维模式更接近人脑可能是一个重要方向。这不仅能提高人机交互的自然性,还可能提升AI在理解人类意图方面的能力。

然而,这项研究也带来了一些需要深思的问题。如果AI系统真的能够模拟人脑的语言处理机制,这是否意味着它们也具有了某种形式的"理解"能力?这个问题不仅关系到AI的技术发展,也涉及到我们对智能本质的哲学思考。

从社会伦理的角度来看,这种能够深入分析大脑活动的技术也需要谨慎使用。虽然HFTP目前主要用于科学研究,但如果这种技术被不当使用,可能会侵犯个人的思维隐私。就像任何强大的工具一样,它既可能被用来造福人类,也可能被滥用。

研究团队在论文中也坦诚地讨论了这些潜在的负面影响。他们指出,虽然HFTP可以支持更安全、更可控的AI模型开发,并为非侵入性诊断提供新的标记物,但同样的可解释性技术也可能被用于优化说服性操作,如果与个人神经数据结合,还可能威胁隐私。

目前,这项研究还存在一些限制。虽然团队在中文和英文语料上都进行了AI模型测试,但人脑数据主要来自中国的志愿者,且主要使用中文刺激。研究团队已经开始收集英语母语者的数据,以进行更全面的跨语言验证。此外,他们也计划扩大模型测试范围,研究更多不同架构和参数规模的AI系统。

说到底,这项研究就像在人脑和人工智能之间搭建了一座桥梁,让我们能够更好地理解这两种不同但又相关的"智能"系统。虽然我们还远未完全理解大脑的工作原理,也还在探索AI的发展方向,但这种比较研究为我们提供了宝贵的洞察。它告诉我们,智能可能有多种实现方式,而理解这些不同方式之间的关系,将有助于我们既创造更好的AI系统,又加深对自身大脑的认识。

这项研究也提醒我们,在追求AI技术进步的同时,不应忽视对其内在机制的理解。正如物理学不仅关心实验结果,更关心支配这些结果的基本原理一样,AI研究也需要在追求性能的同时,深入探索其工作原理。只有这样,我们才能真正掌控AI技术的发展方向,确保它能够更好地服务于人类社会。

对于普通人来说,这项研究最重要的意义可能在于它让我们重新审视人类智能的独特性。虽然AI在很多任务上已经达到或超越了人类水平,但这项研究显示,AI和人脑在处理信息的方式上仍然存在根本差异。这种差异不应该被视为AI的缺陷,而应该被理解为不同智能形式的体现。未来的发展方向可能不是让AI完全模仿人脑,而是让这两种不同的智能形式更好地互补,共同解决人类面临的复杂问题。

Q&A

Q1:什么是层次频率标记探针(HFTP)方法?

A:HFTP是北京大学团队开发的一种新方法,就像给语言处理系统安装"心电图"设备。它将语言按固定节拍排列(每秒4个音节,每2个音节组成短语,每4个音节组成句子),然后通过频率分析来检测大脑或AI模型中专门处理不同语法层次的神经元。如果某个神经元专门处理句子结构,就会在1赫兹频率上有强烈反应。

Q2:为什么升级版的Llama 3.1与人脑相似性反而下降了?

A:虽然Llama 3.1在任务性能上更强,但与人脑的相似性从0.645降到了0.514。这是因为它使用了更大规模、更多样化的训练数据,包含大量代码、推理和多语言内容。就像一个学生同时学习太多科目,虽然技能更全面,但在特定领域的专精度会下降。模型将更多资源分配给了复杂任务,稀释了在自然语言特定模式上的专精度。

Q3:这项研究对普通人的生活有什么实际意义?

A:这项研究有多重实际应用价值。在教育方面,可以通过分析学习者大脑的语法处理模式设计个性化教学方法;在医疗方面,能够更早更准确地诊断语言障碍,特别适用于难以进行行为测试的患者;在AI发展方面,为创造更自然的人机交互提供指导。同时也提醒我们重新思考人类智能的独特性和AI发展的方向。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。