新智元报道
编辑:艾伦
Science 最新论文颠覆「技术奇点」叙事:真正的智能爆炸已在发生,但它不是孤独超级大脑的降临,而是人与 AI 深度缠绕的社会性跃迁。推理模型内部自发涌现出「思想社会」,人机混合的「半人马时代」已然开启。问题从不是奇点会不会到来,而是我们能否建起与之匹配的社会基础设施。
上周的一篇 Science 论文,正在动摇人们对人工智能未来最根深蒂固的想象。
几十年来,「技术奇点」的故事几乎已成定论:某一天,一个无所不能的 ASI 将凭空涌现,将人类甩在身后。
这个形象塑造了无数科幻小说,也隐约支撑着今天 AI 安全讨论的底层逻辑。
芝加哥大学、加州大学圣地亚哥分校和谷歌的研究者认为,这个故事从根子上就讲错了。
詹姆斯·埃文斯(James Evans)、本杰明·布拉顿(Benjamin Bratton)和谷歌研究员布莱斯·阿格拉-阿卡斯(Blaise Agüera Y Arcas)在《科学》期刊发表论文《Agentic AI and the next intelligence explosion》(《智能体 AI 与下一次智能爆炸》),提出了一个截然不同的判断:真正的智能爆炸已经在发生,只是它的形状和人们预想的完全不同——它是多元的、社会性的,而且与人类深度缠绕在一起。
模型内部,有「人」在争论
这篇论文的起点,是一项关于推理模型内部机制的发现,足以令 AI 圈感到意外。
过去一年,DeepSeek-R1、QwQ-32B 等推理模型的横空出世引发广泛关注。
它们在数学、代码、复杂逻辑等任务上的表现,显著超过了同等规模的常规指令微调模型。
通常的解释是:这些模型「想得更久了」——通过强化学习,在回答前生成更长的思维链,付出更多测试时推算时间(test-time compute)。
然而,谷歌、芝加哥大学和圣塔菲研究所的研究者发现,推理能力的提升并非源于计算量的单纯延伸,而是来自对多智能体交互的隐性模拟——他们将其称为「思想社会」(society of thought)。
模型内部会涌现出具有不同人格特质和领域专长的认知视角,这些视角之间进行辩论、质疑与调和。
研究团队分析了超过 8000 道推理题的模型输出,发现在最复杂的任务上,如研究生级别的科学推理(GPQA)和高难度数学题,DeepSeek-R1 的「对话特征」尤为明显;
而在相对简单的布尔表达式等程序性任务中,这类特征几乎消失。
他们甚至做了一个更直接的验证:在 DeepSeek-R1-Llama-8B 模型中,研究者找到了一个与「惊讶、顿悟或应答」相关的内部特征,人为提升该特征的激活强度后,模型在数学推算任务上的准确率从 27.1% 跃升至 54.8%。
一个化学题的案例,把这种现象描述得相当具体:面对一道复杂的 Diels-Alder 合成反应,DeepSeek-R1 在推理过程中突然写道:「不对,这里是环己二烯,不是苯」——模型在自我否定中修正了错误。
而 DeepSeek-V3 则沿着一条单线叙述径直走到底,给出了错误答案。
更值得注意的是:这些模型从未被训练去产生「思想社会」。
当强化学习仅以推理准确率作为奖励信号时,模型自发增加了对话性的、多视角的行为。
优化压力,自己找到了社会性推理这条路。
智能,从来不是一个「人」的事
埃文斯等人在《科学》论文中,将这一发现放进了更宏大的历史框架:每一次「智能爆炸」,本质上都是一次社会组织方式的跃迁。
灵长类动物的智识水平随群体规模扩大,而非随栖息地难度增加。
人类语言创造了迈克尔·托马塞洛所说的「文化棘轮」——知识跨代累积,无需每个人从头重建。
文字、法律和官僚体系,则把社会智慧外化进了制度和基础设施之中。
论文举了一个有趣的例子:一个苏美尔文书负责运行谷物核算系统,他根本不理解这套体系的宏观经济功能——但系统整体的智能,已经远超他个人。
大型语言模型延续了这条线:它们被训练在人类社会认知的全部输出之上,是文化棘轮的计算激活形态,每一个参数都是无数次交流与表达的压缩沉淀。
这个视角,直接挑战了「孤独超级大脑」的奇点叙事。
布拉顿此前在其思想机构 Antikythera 的研究中持续探讨类似问题,他曾在演讲中描绘过这样的情景:
如果未来存在 80 亿人类智能体,和 800 亿乃至更多的非人类智能体,两者之间的比例可能是 1 比 10、1 比 100,甚至更高,届时,「什么构成社会」这个问题,将回到第一性原理。
「半人马」时代,已经开始
论文将当下的人机协作形态称为「半人马配置」(centaur configuration)——人与 AI 智能体的混合行动者,既非纯粹的人类,也非纯粹的机器。
这种配置会变得极其多样:一个人指挥多个 AI 智能体;一个 AI 服务多个人;许多人与许多AI在动态编组中相互协作。
智能体可以自我复制和分叉,一个面临复杂问题的智能体可以生成副本,分配子任务,再将结果合并——这是递归式的集体审议,在每一层复杂性爆发时展开,在问题解决时收束。
这对 AI 的扩展路径意味着什么?
论文的判断是:重要的不只是单个智能体的算力规模,而是系统能否在真实社会的尺度和情境中运作。
为此,「建设智能体制度」与「建设智能体本身」同等重要。
在对齐方式上,论文对当下主流方案提出了批评。
从人类反馈中强化学习(RLHF)本质上是「亲子纠错模型」,在二元关系中有效,面对数十亿智能体时难以扩展。
他们主张一种「制度对齐」(institutional alignment)路径:就像人类社会依靠法庭、市场、官僚体制这些持久的制度模板运转,而非依赖每个人的个人美德,可扩展的 AI 生态也需要其数字等价物——智能体的身份在其次,关键是它能否胜任某个角色协议,就像「法官」、「律师」、「陪审团」这些槽位本身的存在,独立于坐在那个位子上的具体的人。
谁来审计审计者?
在治理层面,论文触及了一个最为棘手的问题。
当 AI 系统被部署于招聘、量刑、福利分配等高风险决策中,「谁来审计审计者」变得无法回避。
论文提出了一种「宪政结构」的构想:政府需要部署具有明确价值取向的 AI 系统——透明度、公平、正当程序——专门用于制衡私营部门和政府其他部门部署的 AI,反之亦然。
例如,劳工部 AI 审计企业招聘算法是否存在差异性影响,司法部门 AI 评估行政部门 AI 的风险评估是否达到宪法标准。
论文用一个细节说明了另一种可能的未来:另一种选择,是像美国证券交易委员会那样,雇用拿着 Excel 表格的商学院毕业生,去对抗 AI 增强的高频交易平台的高维度合谋。
美联储的交易员,对阵的是一整套自动化认知系统——这已是现实。





京公网安备 11011402013531号