鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
刚小步快跑了一波GPT 5.1,主打让大模型说人话,OpenAI又在可解释性上做文章了。
真的是paper的那种。
![]()
论文公开了OpenAI内部一种训练小模型的新方法,能让模型的内部机制更容易被人类理解,即更具可解释性。
OpenAI自己是这样介绍的:
ChatGPT背后的语言模型具有复杂且时长令人惊讶的结构,我们尚未完全了解它们是如何工作的。
这种方法有助于我们缩小其中的差距。
![]()
简单来说,在这项研究中,OpenAI研究员们的核心思路是:训练神经元连接少、但神经元数量多的稀疏模型,让神经网络变得简单,也更容易理解。
如果你对模型可解释性感兴趣,这篇论文值得一读。
而对于OpenAI的难得open,还有不少网友关心:那么新的小模型系列要来了吗?
![]()
通过稀疏模型理解神经网络
来看具体研究内容。
OpenAI研究员们认为,推理模型通过思维链展现出的可解释性在短期内非常有价值,能让我们捕捉到模型的“欺骗”等行为。但完全依赖这一特性显然不太可靠,随着时间的推移,这种策略也可能会失效。
想要更本质地理解模型机制,还是需要对模型的计算过程进行完全逆向工程。
问题在于,从复杂密集网络入手,难度非常大:每个神经元都与其他数千个神经元相连,不同的神经元又执行着许多不同的功能,这让理解它们看上去几乎不可能。
那么,能否训练一个拥有很多神经元,但每个神经元只有几十个连接的模型,来帮助人们理解模型机制呢?
基于这一核心思路,OpenAI的研究人员训练了一个小模型:采用的还是现代语言模型的基础架构(类似GPT-2),只做了一个小小的改动——
强制将模型的大部分权重设为0。
![]()
评估可解释性
有了这个稀疏模型,下一步,研究人员的目标是,找出模型在每一项任务中的“回路(circuit)”。
![]()
所谓“回路”,是指模型能精准完成特定任务的最小计算单元。
论文将其定义为一个由节点(nodes)和边(edges)组成的图。
回路的规模可以通过节点和边的数量来衡量,论文将回路的边数几何平均值作为解释性的量化指标。
为了评估模型的可解释性,研究人员设计了一系列简单的算法任务,对于每个任务,都将模型精简到能够完成任务的“最小回路”。
举个例子:
任务:在Python中,’hello’必须以单引号结尾,”hello”必须以双引号结尾。模型可以通过记住字符串开头使用的引号类型,预测字符串结尾应使用单引号还是双引号,在结尾处自动补全字符串。
得到的回路长这样:
![]()
可以看到,该回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。
流程是:(1)将单引号编码到一个残差通道中,将双引号编码到另一个残差通道中;(2)使用MLP层将编码结果转换为两个通道:一个用于检测任意引号,另一个用于区分单引号和双引号;(3)使用注意力机制忽略中间的token,找到前一个引号,并将其类型复制到最后一个token;(4)预测匹配的结尾引号。
论文还研究了一些更复杂的行为,比如变量绑定等。这些行为的回路更难完全解释,但仍可以得出相对简单的部分解释,以预测模型的行为。
![]()
他们还发现:通过训练更大、更稀疏的模型,可以生成功能越来越强大、回路却越来越简单的模型。
这表明,这一方法有可能扩展到理解更复杂的行为。
![]()
不过,研究人员也强调,这项工作仍处于早期:稀疏模型比前沿模型小得多,并且即使是稀疏模型,计算过程也仍有很多“黑盒”的部分。
另外,目前稀疏模型的训练效率比较低。他们认为有两种途径来解决:
一是从现有的密集模型中提取稀疏回路,而不是从头开始训练稀疏模型。
二是开发更高效的模型训练技术,以提高模型的可解释性。
“跨界”研究团队
作者一共有6位。
通讯作者为Leo Gao,研究方向是AGI对齐,曾参与过GPT-Neo、GPT-4的研究。论文被引数3.5w+,h-index为19。
他曾是Ilya超级对齐团队成员。在Ilya领导OpenAI超级对齐团队期间,两人合作发表了一系列论文和技术博客。
![]()
Achyuta Rajaram,还在MIT学物理,是OpenAI实习生。可解释性研究之外,兴趣是解谜游戏、下棋和撸猫。
Jacob Coxon,毕业于剑桥大学三一学院,2023年加入OpenAI。在2016年和2017年,他分别获得了两届IMO的银牌和铜牌。
Soham V. Govande,来自斯坦福,正在攻读计算机科学AI方向学士学位和系统方向硕士学位。加入OpenAI之前,还曾在英伟达实习。
Bowen Baker,OpenAI多智能体团队研究科学家,2017年就加入了OpenAI,曾参与OpenAI o1的研发。
Dan Mossing,本科毕业于普林斯顿大学物理专业,后于加州大学伯克利分校取得生物物理学博士学位。





京公网安备 11011402013531号