当前位置: 首页 » 资讯 » 新科技 » 正文

从大脑解码 AI,对话神经网络先驱谢诺夫斯基

IP属地 中国·北京 晚点LatePost 时间:2025-10-21 12:14:23



从 1000 亿个神经元到大语言模型,一份神经漫游指南。

文丨曾梦龙

编辑丨黄俊杰

旧金山街头,脑科学家特伦斯·谢诺夫斯基(Terrence Sejnowski)跟老友在路边散步。走着走着,两人停下对视,异口同声地说:“我们赢了!”

这一幕发生在几年前,他身边的人是 “深度学习之父”、计算机科学家杰弗里·辛顿(Geoffrey Hinton)。两人都出生于 1947 年,相识与合作近半个世纪。在 1985 年,他们合作提出了玻尔兹曼机,把神经网络和概率建模结合在一起,为后来的深度学习奠定基础。

当时正值 AI 研究低谷期,主流学术界用符号和逻辑研究 AI,不断碰壁。许多研究人员对有生之年见到重大突破感到绝望。两人希望从人脑的运作方式寻找 AI 研究的灵感,这被建制派认为走上了一条不可能成功的道路。

ChatGPT 诞生,无数大语言模型涌现,改变了世界对人工智能的预期,证明了神经网络研究的价值。辛顿也因 AI 研究在 2024 年获得诺贝尔物理学奖。

“我们当时就像在恐龙脚下生存的小小的哺乳动物。谁料到恐龙很快就会灭绝?” 谢诺夫斯基在今年 9 月接受《晚点 LatePost》视频访谈说。他身穿浅蓝色衬衫、戴椭圆形眼镜,精神十足,看不出已经 78 岁。

得奖后,辛顿希望兑现两人多年前的约定——若其中一人获得诺奖,另一人可以分享奖金。谢诺夫斯基拒绝了好意,于是辛顿用一部分奖金为神经信息处理系统大会(NeurIPS)设立一个 “谢诺夫斯基-辛顿奖”,表彰提出人类大脑工作原理新发现的研究者。NeurIPS 是全球规模最大的 AI 学术会议,谢诺夫斯基从 1993 年担任该会议主席至今。

谢诺夫斯基开创了计算神经科学(Computational Neuroscience)领域,著有经典教材《计算大脑》(The Computational Brain)。他从这个进路取得丰厚成果,比如多层神经网络起源于大脑皮层的并行计算原理;语音识别里的独立分量分析源自大脑树突中的信号传输规律;强化学习背后的奖励预测误差,依据的是大脑中多巴胺的作用机制。这些算法都为现在的 AI 发展打下基础。

谢诺夫斯基也从边缘走向主流,现在是索尔克生物研究所(Salk Institute for Biological Studies)弗朗西斯·克里克讲席教授。他得过神经科学领域的最高奖项 “大脑奖”,是寥寥几个同时担任美国四院院士(国家科学院、国家工程院、国家医学院、艺术与科学学院)的学者之一。这也是对敢于创新和跨学科研究的奖赏。

2019 年和 2025 年,谢诺夫斯基分别出版了《深度学习》(The Deep Learning Revolution)和《大语言模型》(ChatGPT and the Future of AI)的中文版,从亲历者视角讲述 1956 年诞生的 AI 怎样走上歧路,如何走到今天的正道,未来又可能走向何方。

以下是《晚点 LatePost》和谢诺夫斯基的对话。

大模型是魔法,但它的能力也取决于使用者

晚点:《大语言模型》是我读到第一本人类与 AI 合作完成的书籍,你何时萌生写它的想法?

谢诺夫斯基:2022 年 11 月,就像所有人一样,ChatGPT 的出现令人大吃一惊。它仿佛是外星生物降临地球,用英语与我们对话。不知道你是什么感想?

晚点:像是魔法。

谢诺夫斯基:是的,这个比喻很贴切。阿瑟·克拉克(科幻作家、《2001 太空漫游》作者)曾说:“高度发达的技术与魔法毫无二致。”

大语言模型不是外星文明的杰作,但人类当前的困难在于,能否理解这项基于人脑的新技术?尽管人脑仍是未解之谜,我们也没有完全掌握新技术的运作原理,但现在能大幅优化它,避免各种恶性行为。

不过,我们还是为大语言模型的缺陷苦恼,比如它容易产生 “幻觉”。虽然我认为 “幻觉” 这个词并不准确,它不是服用药物后,大脑陷入天旋地转的怪异状态。相反,它展现出了创造力,给出的答案可能比许多作家更出色。

对于新闻报道而言,幻觉是需要避免的缺陷,但在创意写作中,这种特性反而不可或缺。一些人也在利用这种特性,向其寻求灵感、新情节和解决方案等。

晚点:跟 AI 合作写书有什么特别的?

谢诺夫斯基:我 2018 年出版的《深度学习》耗时两年,但《大语言模型》只花了一年。这得益于我用 ChatGPT 辅助写作。我在书中标注了问题框和答案框,确保读者清晰看到:这是我的提问,这是 ChatGPT 的答案。

另一项令人欣喜的尝试是,ChatGPT 在总结、简化、通俗易懂呈现方面表现卓越,帮了我大忙。比如我需要向非科学家或者工程师的群体解释一些专业概念(如 Transformer 模型);每章结尾的总结,ChatGPT 比我写得更恰到好处。

麻省理工学院出版社将我的书稿送审后,其中一位审稿人说自己非常喜欢章末的总结,觉得比正文更容易理解。这恰恰说明了问题。



《深度学习》(The Deep Learning Revolution)和《大语言模型》(ChatGPT and the Future of AI)的中文版。

晚点:为什么你觉得用户和大语言模型的互动是 “镜像效应”?

谢诺夫斯基:《经济学人》刊登过一篇文章,两位杰出的认知科学家分别使用 ChatGPT,一位认为它糟糕透顶,随机生成垃圾,根本不懂自己在说什么;另一位觉得它可能具有 “心智”。当你与它对话时,它会构建你的模型,预判你的思维方式,回复相应的答案。

训练 ChatGPT 的知识库几乎涵盖整个世界,包括过去数百年的文献和著作等。它能模仿任何作者的风格,扮演任何角色。所以当你开始对话时,它首先得判断:我对话的对象究竟是谁?这个人是否聪明?如果对方问题睿智,那我会对应睿智回答。因为我要模仿对方,努力提供与对方对话层次相匹配的答案。

但如果对方的问题荒谬,那它也会给出愚蠢回答。关键在于,若你事先不向 ChatGPT 明确告知你期望的回答方式,系统只会按默认的镜像模式回应。

晚点:你还认为 AI 在对人做图灵测试。(注:现代计算机先驱艾伦·图灵设置了一组问题来判断对话对象是机器还是人类。如果交谈后,你认为对方是人类,那它就通过了测试。 )

谢诺夫斯基:ChatGPT 早已通过图灵测试,它用英语表达时,句法结构完美无缺。语言学家告诉我们,句法(词语的组织方式与排列顺序)是语言的核心力量,意义是语言的最高层次,正是它让我们与动物区别开来。许多动物能通过警告信号等与同类交流,但人类能创造出复杂的词语组合,具有近乎无限的可能性。

ChatGPT 的语法能力远胜于我。我常犯语法错误,我们也都难免出错,它却从不失误。某种程度上,它比我们更聪明,没有人拥有如此广博的知识体系。它还精通多种语言,能处理各种复杂任务。

我意识到,某种意义上,它通过 “镜像效应” 测试提问者的水平。这相当于逆向的图灵测试,AI 在评判人类的智慧。

从机器人到类神经元芯片,AI 研究继续从人体寻找灵感

晚点:你在书里提到,AI 的记忆能力现在处于初级阶段,未来要想进步,可能取决于神经科学家对海马体和神经调节剂的进一步研究。能否为读者通俗解释 AI 和大脑在 “记忆” 问题的异同?

谢诺夫斯基:让我问你一个问题:明天你还会记得这次与我的访谈吗?

晚点:当然,会记得。

谢诺夫斯基:希望如此(笑)。一些人的海马体会出问题,导致他们记不起昨天,甚至 5 分钟前发生的事。这叫健忘症。事实证明,大语言模型也有健忘症。除非它们把对话内容存储在某种记忆系统,否则它们不会记得昨天和你聊过什么,也就无法利用昨天从你这里学到的东西。这叫长期记忆。相比之下,人类大脑在长期记忆上表现卓越。你仍能记起 10 年前的往事或童年点点滴滴。虽然记忆可能变淡,但那些形象始终萦绕在你的脑海。

大语言模型仅仅模拟了大脑皮层的极小部分。皮层之外,大脑还存在数百个其他脑区。这些庞大的知识库用于处理更复杂的问题,比如生存之道。因为生存的关键之一就是铭记过往经验,从而从中获益。这就是进化来的长期记忆。

正如你所说,大语言模型现在处于早期阶段,类似莱特兄弟的首次飞行。当时,莱特兄弟的飞机只在空中停留 12 秒、飞行距离约 36.5 米,但他们证明了载人飞行原理的可行性。早期飞机面临的最大挑战是如何精准操控飞行轨迹并避免坠毁。

这正是 “监管” 的本质:如何规范机器运行。在大语言模型领域,我们面临同样困境。解决问题需要时间。在飞机领域, 100 年后的今天,我们能乘坐它们环游世界。技术需要如此漫长的渐进式发展,才能达到高效且安全的境地。

晚点:现在神经科学处于什么阶段,对 AI 的进步可能有什么帮助?

谢诺夫斯基:我的博士学位是物理学,但后来我转向了神经科学。因为上个世纪我对大脑的工作原理充满好奇。当时的技术非常原始,每次只能记录单个神经元的活动。而我们的大脑拥有 1000 亿个神经元,数量极其庞大。如果逐个记录、逐项分析,不知要耗费多少时间。

过去 10 到 20 年间,技术突飞猛进。如今我们能同时监测数万个神经元,覆盖大脑数十个区域。现在我们能观察大脑整体活动模式,获得全局图景。

现在仍有大量未知领域亟待探索,我们远未真正理解大脑运作机制。不过在感知输入的表征机制方面,我们的认知显著提升。如今我们对运动系统的组织方式有了更清晰的认识——它是分布式的,它不像工程师设计火箭控制系统那样,由单一控制单元统管全局。

大脑是将实际控制权分散到多个区域,包括脊髓等。脊髓能与外界进行大量局部交互,比如手部动作无需大脑参与,可在局部完成。但当需要规划动作时,大脑会调动皮层,制定方案,再通过中间层整合出精确的手部运动轨迹。所有这些过程都在无意识中完成。

类似的,AI 的崛起也不是因为上世纪那种符号逻辑规则的框架,而是借鉴大脑结构——大量简单处理单元,但又高度互联的模型。我们创建了庞大的语言模型,也在深入探究其运作机制,解析其数学原理。它们虽如大脑般神秘,但我们终将破解其奥秘,毕竟是我们创造了这些模型。数学家理应能揭示其运作规律。

随着研究推进,我们将能借鉴对大语言模型的研究,来设计更有效的实验方案,揭示大脑运作规律。这就是 “神经 AI” 这一新兴领域的魅力所在。它汇聚了关注大脑运作的科学家与致力于构建更强大语言模型的工程师,实现了跨学科融合。

而在上个世纪末,两个学科毫无共同点,各自运用截然不同的数学方法解决完全不同的问题,进展缓慢。如今两个学科都取得飞跃性进展,发展速度极快。这无疑是令人振奋的时刻。



大脑研究中的层级。(左)空间尺度范围从底部的分子水平到顶部的整个中枢神经系统(CNS)。突触的示意图(右下),视觉皮层中的简单细胞结构(右中),视觉皮层中皮层区域的层次结构(右上)。图片来自:《深度学习》

晚点:你提到,神经科学家开发的神经形态芯片(超大规模集成电路,VLSI)能耗远低于传统数字芯片,但同样可以执行神经元的基本运算,因此在降低功耗的同时有高性能计算的潜力。为什么这些芯片还没有得到充分使用?如果神经形态芯片能够广泛使用,是否意味着今天算力投资存在大量浪费,英伟达这类公司的价值被高估,能源也不再是 AI 发展的限制?

谢诺夫斯基:神经形态工程由加州理工学院的工程师卡弗·米德(Carver Mead)创立。他原本是位物理学家,研究晶体管的原理。但他提出一个极具洞见的观点:数字芯片存在根本缺陷。数字芯片的工作原理与早期 AI 如出一辙,即非开即关、非通即断的二进制逻辑,本质上是真或假的二元判断。

因为计算机要实现精确运算,不容许任何失误,方法是向芯片注入巨大能量。晶体管每次进行开关,电压都在高低电平轨之间切换,这极其耗能。而每个芯片密布着大量晶体管,加在一起能产生数百瓦功率,足以点亮甚至温暖整个房间。

米德意识到,不必让晶体管全程满载,只需在临界点附近工作。当输入信号时,它就能沿着陡峭的曲线上升。有趣的是,这条曲线的数学模型竟与神经元对刺激的反应机制完全一致。这种特性被称为模拟信号,其连续数值与数字信号的二进制形成鲜明对比。

由此诞生的神经形态芯片能完美复现神经元功能,功耗降低了千倍,仅需毫伏级微弱电流。它们的重量极轻,还能相互通信,无需现在整间房子的 GPU 机架。当前,数据中心正投入数百亿美元在芯片和电力上。而人脑因为采用模拟处理,仅需 20 瓦功耗。

如今我们已掌握制造神经形态芯片的技术,运作方式比当前使用的数字芯片更接近神经元。这项技术已发展约 30 年,属于成熟技术。当前阻碍在于,从数字信号向模拟信号的转换需要庞大基础设施支撑。这类似于燃油车向电动车的转型。在芯片上,我们必须经历从数字逻辑到模拟计算的转型。这需要彻底改变设备的设计方式,需要完全不同的技能体系。未来几十年间,我认为技术重心向模拟领域转移的变革必将发生。

晚点:你太太是医生,你说她经常提醒你,“大脑只是身体的一部分,而身体比大脑更复杂”。现在的 AI 只是模拟了大脑皮层很小一部分原理,但没有涉及小脑,也就是人体控制运动的部分。这是否意味着,人类对小脑的认知比皮层少,机器人的发展还很遥远?

谢诺夫斯基:是的,大语言模型只会说话,没有身体,做不到言行一致。

如何控制机器人是个极其困难的问题。这涉及身体多处部位同步协调,才能实现流畅动作、抓取物品、保持平衡等功能。最近,加州理工学院控制理论专家约翰·多伊尔(John Doyle)和他才华横溢的学生们在该问题上取得突破性进展。他们采用分布式控制,这也是前面提过的,大脑运用的控制方式。

另一关键在于,人体拥有极其精密的感知器与执行器。人类没有旋转的电机,依靠的是肌肉收缩配合精密反馈机制,抓取和操控物体。这对机器人非常困难,它们现在连简单动作都难以完成。

大脑皮层外有数百个区域关乎生存,其中移动能力就是生存必需。人类的身体经过数百万年进化,早已被精确调校到能快速灵活地应对突发状况。我们远没达到那种水平,要真正接近自然的智慧,仍要漫长岁月。

晚点:身体可能比语言更复杂。

谢诺夫斯基:正是如此。哺乳动物耗费数亿年才发展出身体能力,而人类语言的历史只有数十万年。

语言要利用现有神经系统才能发展。这些系统原本是为生存进化而来。所以语言必须融入现有的神经回路,使用相同的方法、相同的世界表征方式、相同的运动系统,才能实现说话等功能。

这意味着,某种程度上,语言的复杂性更低。它并未在脑中创造全新区域,大脑也不存在所谓的语言器官。

自然界已经解决过无数复杂问题,像刚才我提到大脑的能耗只有数字芯片的千分之一。但换个角度,大脑只占人类体重约 2%,但消耗了全身能量的 20%。

下一步发展需要基础数学的突破

晚点:你写道:“如果技术足够成熟,我们甚至可以利用个人的脑活动数据来训练高级神经基础模型,从而创造出一个能够模拟该个体思维方式的永久性数字版本。” 从科学原理角度,人脑的下载是有可能的,那离真正实现大概还有多远?我还想起相关的一则新闻,中国哲学家李泽厚死后选择冷冻自己的大脑。因为他希望未来可以研究他的大脑是否具有中国文化的印迹。你觉得文化会影响大脑吗?

谢诺夫斯基:毫无疑问,文化会影响大脑。事实上,你经历的每件事都会改变大脑。大脑与计算机的根本区别在于:当你学习新事物时,计算机只是改变硬件配置,而大脑则会改变软件,改变大脑中的程序。大脑中的软件就是硬件。

文化如同软件,源于世界本身。你必须学习当地社区使用的语言,领悟他们的价值观、善恶标准、危险界限……所有这些都需通过经验习得,并在学习新事物时改变大脑的硬件结构。这部分还相对简单,现在理解大脑不同部位如何运作以及如何复制这种运作,才是科学难题。

目前,下载大脑(把某人的大脑植入计算机)的想法还属于科幻范畴。然而人类许多行为模式可以被复制。因为相较于大脑中错综复杂的神经回路,人类实际使用的行为模式相当有限,比如人学会走路后,后来都会自动行走。

这套程序非常精密。因为行走需要大脑多个区域协同运作,但是一旦掌握,便成自动反应。无需刻意思考,你只需走而已。人类 99% 的行为都是习惯使然,重复既往模式并延续相同方式。

我们渴望理解这些习性背后的机制,这也是可以解决的科学课题。物理学中的动力系统理论提供了研究路径,其核心在于同步采集神经元活动数据与行为表现,并建立因果关联,即简单地证明某个神经元引发特定行为。

冲绳科技大学的杰拉尔德·帕奥提出了一个精妙的数学框架,成功解决了该难题。我们正与他合作,将研究从果蝇和斑马鱼幼苗转向人类。

具体来说,我们在运用他的算法分析人类神经影像数据,验证能否复现人类行为模式。人类神经影像数据依靠的是功能性磁共振成像技术。该技术能在相对较低的分辨率下同步记录大脑多个区域的活动,最高可达单个神经元级别。在皮层区域分辨率下,我们可观察个体活动时,哪些脑区被激活。

我们所有工作都在计算机中完成,采集数据、分析行为模式,再在计算机中复现行为。某种意义上,这是将大脑功能下载至计算机,使计算机执行类似行为。



学术研究之外,谢诺夫斯基做了许多脑科学的科普工作。他在网课平台 Coursera 有《学会如何学习》(Learning How to Learn)等课程,并合著有相关科普书籍。

晚点:因为大脑有 1000 亿维,你觉得 AI 的发展需要基础数学在高维空间的进步,这个挑战有多大?

谢诺夫斯基:数学是人类成就皇冠上的明珠。所有科学都依赖于数学。没有数学,一切皆不可能。它是科学的语言。

人类的大脑擅长在三维空间中思考,但对六维空间的几何形态毫无概念。六维不是四维的简单扩展。它虽非巨大飞跃,却已超出人类想象力的边界。但我们能发展出高维数学,研究六维空间中结构的特性,比如一个包含六个单元的神经网络。

研究发现,当空间维度不断扩展时,会形成极其复杂的结构区域。这些区域能以我们无法想象的方式存储和分析信息,但我们能通过数学手段解析它们。这就是当下正在发生的事,我们通过分析大脑数据创造新的数学洞见。

人们常说 ChatGPT 这类神经网络是黑箱。黑箱是无法窥见内部运作的装置,不透明,你不知道它如何运作。事实上,大脑也是黑箱,但比大语言模型透明——我们能够获取大脑每个神经元活动、每条连接的实时变化,掌握所有输入数据的完整知识。正因如此,科学才能取得飞速进展。

数学家未来能指引我们探索高维空间究竟如何运作。它与我们的直觉截然不同,必将催生全新的数学体系。我们甚至无法想象它是什么样的数学体系。如今,我们正处于三维与无限之间的某个维度。这是大脑运作的地方,也是我们获得新见解的领域。

政府缺乏专业知识管控 AI 风险,科学家能够自我监管

晚点:你在《大语言模型》的后记里说:“我撰写本书,是为向读者揭示 AI 领域幕后的发展脉络。当下,媒体忙于报道 AI 的最新进展,但如果不了解这些突破背后的历程,读者很容易产生误解。” 那能否讲下你观察到的一些误解?

谢诺夫斯基:媒体虽然不是出于恶意,但往往夸大其词、误导读者。因为媒体本质上是个吸引眼球的行业,需要读者点击或者购买。报纸就是上个时代的 TikTok,专为让人上瘾而生。媒体由于想把文章包装成你感兴趣的模样,于是内容听起来特别糟糕,比如标题可能写成《AI 将让你失业》。它们会报道某些失业案例,但这绝非当前使用 AI 的真实处境。

实际上,绝大多数使用者工作效率更高、工作表现更优、钻研问题更深入。每当我演讲时,人们最常问的问题就是:“我会失业吗?” 这是一种全民焦虑。为什么会这样?我觉得是因为媒体不断灌输 “你将失业” 的论调。对此我的回应是:“你不会失业,但工作性质将改变。新技术需要新技能,你必须学会如何运用。”

另一个例子是超级智能。有文章宣称,AI 将消灭人类。媒体将其炒作成头条新闻,称之为 “生存威胁”。虽然在 AI 发展过程中,我们必须保持警惕,避免做出无法逆转的错误决策。但当前技术已给人类带来巨大福祉,我们需要权衡利弊。而且,所有技术都可能被用于恶意目的,我们建立监管机制防范就好。即使生存威胁终有一天发生,也绝非近在眼前。



1980 年,谢诺夫斯基(左)和辛顿(右)在波士顿讨论视觉网络模型。一年后,谢诺夫斯基在巴尔的摩的约翰·霍普金斯大学成立了实验室,辛顿在匹兹堡的卡内基梅隆大学创立研究小组。两地相距数百英里,每逢周末,他们开车往返见面,最终共同取得重大突破。图片来自:《深度学习》

晚点:那你觉得怎样的监管机制比较好?你在书中提到了自我监管、政府监管、国际监管三种方式。

谢诺夫斯基:我认为自我监管是起点。专家群体审视现有成果,试图加以约束或管控,而不是由政府或国际机构制定可能阻碍技术进步或脱离实际的规则。

真正重要的是当前无人能预见的意外后果。我们必须允许探索的可能性,若过早扼杀创新,最终所有人都会蒙受损失。

1970 年代重组 DNA 技术诞生后的自我监管是可以借鉴的模式。重组 DNA 意味着人们能从基因组中切除或添加基因,生物学家立马意识到这如同神力,人类可能彻底搞砸一切。倘若创造出灭绝人类的病毒呢?

科学家们没有被动等待监管机构介入,而是选择主动自我约束。他们召开国际会议,制定生物安全等级制度,规定在基因可能外泄的危险实验中,必须采取相应防护措施等。过去半个世纪,这些规范始终得到严格遵守,成效显著。虽然发生过泄漏事件,但均得到有效控制。我们必须延续这种模式,在技术演进过程中建立自我监管机制,掌握控制方法。

政府干预过于粗暴,他们缺乏专业知识来有效管控。科学家群体完全有能力自我监管,当前也有相关努力正在推进。许多研究者不仅关注安全,还涉及隐私等伦理问题。我们需要厘清AI 的风险与收益,认清为获取 AI 的效益必须承担哪些风险和代价。

小模型可以替代大模型,小公司可能战胜大公司

晚点:你怎么看大模型和小模型的争论?大语言模型的发展证明了规模化法则(Scaling Law),但现在一些人觉得追求更大规模的语言模型意义不大,应该专注更小、更专业的模型,这样更有利于商业化。从科研角度,你也提到:“小型语言模型因其训练数据需求量小,更便于开展快速实验并识别关键机制,这可能是通向理论突破的重要途径。”

谢诺夫斯基:当前我们需要的模型越大,所需数据就越多,而我们已经耗尽数据。若有更多数据,我们或许能构建更大的模型。但关键在于,当前技术已极具实用价值。在许多商业应用场景或特定领域,小模型可以替代大模型。

比如修理自行车的师傅精通零件细节,清楚故障成因,懂得如何更换部件……他们拥有深厚的知识储备,但专注的领域极其狭窄。这时浓缩自行车知识的小模型就比通晓世间万物的大模型更好,更能满足你对自行车的需求。

许多企业都将需要基于自身数据的专用小型语言模型。虽然企业数据量远不及全球数据庞大,但这些数据恰恰需要保密,必须将数据严格封锁在企业内部。这场变革当下正在发生。

另一关键点在于数据质量至关重要。若直接抓取互联网数据,必然充斥着各种错误、偏见……由于数据量庞大,人类无法筛选处理。但若采用小型语言模型,就有能力筛选全部数据。所以未来将出现偏见更少、误判概率更低的小型语言模型。当前的困难在于 AI 专家的数量有限。

这可能需要数十年时间培养大批人才。他们不是创造新 AI 的人,而是懂得如何运用 AI、将数据输入 AI 的人。如果说研发大模型是在设计新的汽车,这些人的工作有点像汽车修理工。

晚点:今年 DeepSeek 引起热议,被看作是开源的胜利和中国公司的崛起,你对此有什么感受?

谢诺夫斯基:这是一种令人印象深刻、富有创意地改进大语言模型的深度学习方法。DeepSeek 没有来自阿里巴巴、腾讯,而是源自一个小型团队。他们必须精打细算地利用有限资源,通过架构优化提升效率。他们向我们证明,即便资源远不及巨头企业,依然能取得重大突破。

这就是初创企业的故事,困境催生创新。当资源受限时,人们会迫使自己探索更聪明的解决方案。这种现象不仅在中国,在全球众多小公司里都在发生。

现在全球有 10 万家 AI 初创企业,数量惊人!它们正朝着无数方向发展,令人振奋。AI 初创企业的人员都非常年轻,他们正积极推动变革。变革机遇对中国实现赶超也至关重要。

晚点:你觉得 AI 领域会有小公司超越 OpenAI、微软、Google、Facebook 等大公司吗?

谢诺夫斯基:完全有可能。我们正经历全新时代,人类正重演 1990 年代互联网革命的轨迹。Google 最初只是家小公司,斯坦福大学两名计算机科学研究生构思出了搜索引擎理念。我们正经历的 AI 时代,未来影响力或许会超越互联网。

晚点:我读完《深度学习》和《大语言模型》两本书后,最大感受是你和辛顿等一小群反叛学者,坚持挑战 AI 建制派的不易。回看半个世纪 AI 发展的历史,你最大的感受是什么?

谢诺夫斯基:物理学家普朗克(Max Planck)是量子力学的先驱之一。他曾说过令我震惊的一句话。他说,科学的发展需要一场又一场葬礼的推进。

创造未来的人,那些拥有全新见解的人,通常都是年轻人。年轻人怀揣雄心壮志,致力于解决难题,但常被资深人士压制。那些功勋卓著、事业有成的前辈们,不愿变革,只想稳坐高位。

当你年轻有为、试图崭露头角时,头顶上总有人在打压你。这正是我和杰夫(杰弗里·辛顿的昵称)努力推进工作时的切身体会。他们公然嘲笑我们,认为我们的工作荒谬无用。谁会相信神经网络能成就什么?不过是玩具罢了,毫无价值!

一代又一代人都是这般对待新事物。但毫无疑问,又一代人即将崛起。我为我的学生感到骄傲,因为他们正在挑战我们。他们已开辟出我们初入此领域时甚至无法想象的新方向。这正是世界的运行法则,永远如此。

晚点:年轻人总渴望变革。

谢诺夫斯基:革命!革命!一切都是为了人民,让我们推翻旧体制!这不仅限于科学领域,每个社会的组成部分都将经历这样的革新进程。

题图视觉中国

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。