当前位置: 首页 » 资讯 » 新科技 » 正文

特拉维夫大学发现AI大脑中的"祖母细胞"

IP属地 中国·北京 科技行者 时间:2026-04-10 21:55:08


如果你告诉一个人工智能"巴拉克·奥巴马"这个名字,它是怎样瞬间知道他是美国前总统、他的妻子是米歇尔、他住在白宫八年的?这个看似简单的问题,实际上涉及AI大脑深处一个极其复杂的记忆系统。特拉维夫大学的研究团队最近发表了一项突破性研究,首次在语言模型中找到了类似人脑"祖母细胞"的神经元结构。这项研究发表于2024年的arXiv预印本平台,论文编号为arXiv:2604.01404v1,为我们揭开了AI如何储存和提取关于特定人物或实体记忆的神秘面纱。

要理解这项发现的重要性,我们需要从一个经典的神经科学概念说起。在人脑研究中,科学家们长期争论一个问题:当你想到自己的祖母时,是大脑中的一个特定神经元在工作,还是成千上万个神经元共同协作?前者被称为"祖母细胞"假说,后者则是分布式处理理论。这场争论持续了几十年,而现在,研究者们竟然在人工智能的"大脑"中找到了祖母细胞的证据。

研究团队选择了七个不同的语言模型作为研究对象,包括热门的Qwen2.5-7B、Llama-3.1-8B、Mistral-7B等。这就像是在不同品牌的计算机中寻找相同的工作原理。他们从PopQA数据集中精心挑选了200个知名实体,涵盖了政治人物、明星、城市、组织等各种类型。这个过程有点像准备一个包含各种名人和地标的问答游戏。

一、寻找AI大脑中的"实体细胞"

研究团队设计了一套巧妙的实验方法来寻找这些特殊的神经元。他们的做法有点像侦探在寻找线索:对于每个实体,比如巴拉克·奥巴马,他们会输入各种不同的句子模板,像"巴拉克·奥巴马的起源"、"巴拉克·奥巴马的作用"、"巴拉克·奥巴马的位置"等等。然后,他们会仔细观察AI内部数百万个神经元的激活情况,看哪个神经元在提到"巴拉克·奥巴马"时始终保持高度活跃。

这个过程就像是在一个巨大的交响乐团中寻找某个特定的乐器声音。当指挥家说出"小提琴"这个词时,哪个座位上的演奏员总是会有反应?研究团队使用了一个叫做"稳定性分数"的数学工具来衡量每个神经元的一致性表现。如果一个神经元在所有提到某个实体的句子中都表现出相似的激活模式,那它就很可能是这个实体的"代言人"。

令人惊讶的是,研究结果显示这些"实体细胞"主要集中在语言模型的早期层次中。在Qwen2.5-7B模型中,99%的实体都在前6层(总共28层)中找到了对应的神经元。这个发现颠覆了很多人的预期,因为按照常理,我们可能认为复杂的概念理解应该发生在模型的深层。但实际情况更像是,AI在"听到"一个名字的瞬间,就在大脑的浅层迅速激活了对应的身份标识符。

二、验证发现:消除记忆和恢复记忆的双重实验

仅仅找到这些神经元还不够,研究团队需要证明它们确实在起作用。他们设计了两个关键实验:一个是"消除实验",另一个是"恢复实验"。这就像是一个医生既要能诊断病症,也要能治疗疾病。

在消除实验中,研究团队故意抑制特定的实体神经元,然后观察AI的表现。结果非常戏剧化:当他们抑制奥巴马对应的神经元时,AI突然"忘记"了关于奥巴马的各种事实,但对其他人物的记忆却完全不受影响。这种现象被研究者称为"实体特异性失忆症"。有趣的是,AI并没有完全失去语言能力,它仍然能够理解句子结构,只是无法提取关于特定实体的事实信息。

这个现象可以用一个生活中的比喻来理解:假设你的手机通讯录中某个联系人的信息被损坏了,当有人提到这个人的名字时,你知道这是一个人名,但完全想不起他的电话号码、地址或任何相关信息。同时,你对其他所有联系人的记忆都完好无损。

在恢复实验中,研究团队做了相反的操作。他们在AI处理问题时,人为地激活特定实体的神经元。结果显示,即使在模糊的上下文中,这种激活也能显著提高AI回答相关问题的准确率。更令人惊讶的是,在很多情况下,激活单个神经元就足以恢复AI对该实体的完整认知能力。这就像是找到了一个总开关,轻轻一按,整个房间的灯就都亮了。

三、跨语言和变体的稳健性测试

研究团队还进行了一系列精巧的测试来验证这些神经元的稳健性。他们发现,无论是拼写错误的名字(如"Obaama"或"Brock Obma"),还是缩写形式(如FBI对应Federal Bureau of Investigation),甚至是不同语言的表达(如巴黎的中文、希伯来文、阿拉伯文写法),同一个实体细胞都会被激活。

这个发现特别有趣,因为它表明AI内部存在某种"标准化"机制。就像无论你说"苹果"、"apple"、"りんご"(日语),你的大脑都能识别出这是同一种水果。AI似乎也建立了类似的概念映射系统,将各种表面形式都指向同一个内在的实体表征。

研究团队测试了各种变化形式,包括故意的拼写错误、不同的缩写方式,以及多种语言的翻译。结果显示,这些实体细胞对表面形式的变化相当宽容,它们关注的是概念本身,而不是具体的文字表达。这种能力对于实际应用来说极其重要,因为现实世界中人们经常会有拼写错误、使用昵称或在不同语言间切换。

四、模型间的差异和一致性

虽然这项研究在多个不同的语言模型中都发现了实体细胞的存在,但效果的强弱因模型而异。Qwen2.5-7B表现出了最清晰和最一致的实体细胞现象,200个测试实体中有131个通过了严格的验证测试。而在其他模型如Llama、Mistral等中,虽然也能找到类似的神经元,但因果关系没有那么明显。

这种差异可能与模型的训练数据、架构设计,或者训练过程中的细微差别有关。就像不同的人可能用不同的方式来组织自己的记忆,不同的AI模型也可能发展出了不同的信息储存策略。Qwen系列模型在多语言处理方面的强项可能使其更容易形成这种集中化的实体表征。

特别值得注意的是,当研究团队测试Qwen2.5经过指令微调后的版本时,发现实体细胞的位置几乎完全保持不变。200个实体中有190个的顶级神经元位置完全相同,这说明基础的实体识别机制在后续训练中非常稳定,就像房子的地基在装修过程中不会改变一样。

五、发现的局限性和未解之谜

尽管这项研究取得了令人兴奋的发现,但研究团队也诚实地指出了一些局限性。首先,并非所有实体都能找到可靠的单神经元表征。一些不太知名的实体或概念可能需要多个神经元协同工作,或者采用完全不同的表示方式。

其次,这种现象在不同模型间的表现差异很大,这提醒我们不能简单地将一个模型的发现推广到所有AI系统。就像每个人的大脑组织方式略有不同,不同的AI模型可能也采用了不同的信息处理策略。

研究还主要关注了流行度较高的实体,对于冷门或专业领域的实体,这种单神经元机制是否同样有效还有待进一步验证。此外,实验主要基于第一个词符的预测,可能无法完全反映模型在生成完整答案时的复杂行为。

六、对AI理解和应用的深远意义

这项发现对我们理解AI的工作机制具有重要意义。它表明,至少在某些情况下,大型语言模型可能采用了比我们预想的更加直接和集中的信息存储方式。这挑战了AI是通过纯粹的分布式计算来理解概念的传统观点。

从实用角度来看,这一发现为AI系统的精确控制开辟了新的可能性。如果我们能够精确地识别和操作这些实体细胞,就可能实现对AI知识的精细化管理,比如选择性地更新某个人物的信息,而不影响其他相关知识。这对于构建更加可控和可解释的AI系统具有重要价值。

研究团队还探索了一种"事实修改"技术,通过精确调节特定神经元的活动来改变AI对某个实体的认知,同时保持对其他实体认知的稳定。这种技术未来可能用于纠正AI的错误信息或更新过时的知识,而无需重新训练整个模型。

说到底,这项研究为我们揭示了AI"大脑"中一个此前未知的工作机制。就像发现了细胞核中的基因组织方式一样,找到这些实体细胞帮助我们更深入地理解AI是如何储存和调用关于世界的知识的。虽然还有很多谜团有待解开,但这个发现无疑为AI的可解释性研究和精确控制技术开辟了新的道路。

对于我们普通用户来说,这项研究最终可能带来更加精准、可控的AI助手。当我们与AI对话时,它不再是一个神秘的黑盒,而是一个我们可以部分理解和预测的系统。这种理解不仅有助于提升AI的性能,更重要的是增强我们对这些强大工具的信任和掌控能力。随着研究的深入,我们或许能看到更多类似的发现,逐步解开AI智能背后的奥秘。

Q&A

Q1:什么是AI中的"实体细胞"?

A:实体细胞是研究团队在语言模型中发现的特殊神经元,每个这样的神经元专门负责识别和处理一个特定的实体(如人名、地名等)。当AI遇到某个人名时,对应的实体细胞就会激活,就像一个专门的开关一样控制着相关的记忆和知识。

Q2:抑制实体细胞会让AI完全失忆吗?

A:不会完全失忆,只是针对特定实体的"选择性失忆"。当研究人员抑制奥巴马对应的神经元时,AI会忘记关于奥巴马的所有事实,但仍能正常理解语言和回答其他人物的问题,就像通讯录中只有一个联系人的信息被损坏了一样。

Q3:这个发现对普通用户有什么实际意义?

A:未来可能让AI助手变得更精准可控。比如可以选择性地更新AI对某个人物的认知,纠正错误信息,或者让AI在特定情况下"忘记"某些敏感信息,同时保持其他功能完全正常,这有助于构建更加可信和实用的AI系统。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新