当前位置: 首页 » 资讯 » 新科技 » 正文

AI大神Ilya访谈最新论断:我们高估了算力,低估了情绪

IP属地 中国·北京 智东西 时间:2025-11-26 14:13:58


智东西
编译 王涵
编辑 漠影

智东西11月26日消息,今日,前OpenAI联创兼首席科学家、SSI联创兼首席科学家Ilya Sutskever在接受采访时做出重磅论断:AI的扩展(Scaling)时代已经终结!

整场播客长达1小时36分钟,在这场深度对话中,Ilya Sutskever提出,当下算力规模已经十分庞大,仅靠算力堆砌已经无法让模型实现更大的突破,他直言:“我们正从扩展时代回归到研究时代,如今只是拥有了更强大的计算机。”

当前,AI存在严重的“评估表现与现实应用脱节”割裂问题,Ilya Sutskever认为是因为其泛化能力不足。他提到了一个关键点,AI的一大瓶颈是没有类似人类的感官和情绪等“价值函数”,因此提出尝试通过预训练让模型获得“情绪驱动的决策能力”,构建出关心所有“有情生命”的AI。

访谈核心信息如下:

1、泛化能力是AI发展的瓶颈:Ilya Sutskever认为,当前顶尖AI存在严重的“评估表现”与“现实应用”脱节,其核心问题在于模型的泛化能力远不如人类。

2、人类的情绪相当于AI的“价值函数”:他提出颠覆性观点:“情绪”是人类进化形成的、内置的“价值函数”,能为决策提供即时反馈,这是AI目前缺失的关键能力。

3、堆砌算力已无法突破,“扩展时代”已经终结:Ilya Sutskever认为,当下,以堆砌数据、算力为核心的“扩展时代”已经结束,AI发展正回归“研究时代”,需要新范式突破。

4、人类拥有比AI更好的“学习算法”:人类在样本效率和持续学习上的优势,源于某种更根本、更优越的底层学习机制,而非仅仅是进化赋予的“先验知识”。

5、SSI是纯粹的“研究公司”:Ilya Sutskever透露,其创业公司SSI不参与算力竞赛,其核心身份是一家专注于突破性研究的“研究时代”公司。

6、超级智能是“能学会做所有事”的智能:对于什么是超级智能这个问题,Ilya Sutskever将超级智能定位为一个“能够学会做所有事”的成长型心智。

7、让人们看到AI的强大,才能更好地治理:在AI治理方面,Ilya Sutskever主张通过“渐进式部署和公开展示”,让人们亲自感受AI的能力与风险。

8、应该构建“关心有情生命的AI”:Ilya Sutskever认为,业界应该构建关心所有“有情生命”的AI,他认为这比只关心人类更根本,也更简单。

9、预训练导致模型趋同:Ilya Sutskever认为,预训练是导致各公司模型同质化的根源,而强化学习才是产生差异化的路径。

Dwarkesh播客:

https://www.dwarkesh.com/p/ilya-sutskever-2

YouTube:

https://www.youtube.com/watch?v=aR20FWCCjAs&t=1s

以下为Ilya Sutskever播客实录(智东西做了不改变原意的编辑):

一、顶尖AI为何表现“分裂”?泛化能力是关键瓶颈

Ilya Sutskever:你知道这有多疯狂吗?所有这一切都是真实的。

Dwarkesh Pate:什么意思?

Ilya Sutskever:你不这么认为吗?所有这些AI的东西,所有这湾区的一切……它正在发生。这难道不就是科幻小说里的情节吗?

Dwarkesh Patel:另一件疯狂的事情是,这一切发生的都如此自然。我们将GDP的1%投资于AI这个想法,我本以为会感觉是件大事,而现在却只觉得稀松平常。

Ilya Sutskever:事实证明,我们适应事物的速度相当快。但这也有点抽象。因为当你在新闻上看到,某某公司宣布了某某金额的投资。你看到的就只有事件本身,到目前为止,还跟你没什么直接联系。

Dwarkesh Patel:我们真的应该从这里开始吗?我认为这是个有趣的讨论,我们就从这开始聊吧。你是说,这从普通人的角度看确实没什么太大不同,即使到了技术奇点阶段,这一点也依然成立。

Ilya Sutskever:不,我不这么认为。我刚才说的“感觉不到不同”的是,例如,某某公司宣布了一笔难以理解的投资金额,数据比较抽象,人们对此可能没有明显感知。

但AI的影响将会被感受到。AI将渗透到经济中,会有非常强大的经济力量推动这一点,而且我认为其影响将会被强烈地感知到。

Dwarkesh Patel:你预计这种影响何时出现?我觉得这些模型看起来比它们的在经济体系中体现得要更聪明。

Ilya Sutskever:是的,这是目前这些模型最令人困惑的一点。它们在评估中表现极佳——那些评估难度不低,模型却能交出亮眼答卷——但产生的经济影响却远远落后。这种反差很难理解:模型既能完成一些惊人任务,为何有时又会出现“重复犯同一错误”这类基础问题?

举个例子,假设你用vibe coding处理事务时遇到程序错误,向模型求助:“能修复这个错误吗?”模型会回应:“哦,天哪,你说得对,我确实有个错误,我来修复它。”可结果它反而引入了第二个错误。当你指出这个新问题,它又会说:“哦,天哪,我怎么会犯这种错?你又说对了”,随后却把第一个错误恢复了。你就这样在两个问题间来回拉扯,这实在让人费解。但这确实说明,模型背后一定存在某种异常情况。

我有两种可能的解释。一种更异想天开的想法是,强化学习训练或许让模型变得过于专注和狭隘,缺乏足够的全局意识,尽管这种训练在其他方面也让模型展现出一定的“感知能力”。正因如此,它们有时连基础任务都无法完成。

另一种解释则与训练数据相关。在预训练阶段,数据选择的答案很明确:需要用到所有能获取的数据,无需纠结取舍。

但到了强化学习训练阶段,情况就不同了。人们必须主动决策:“我们要针对这个目标设计这类强化学习训练,针对那个目标设计那种训练。”据我所知,所有相关公司都有专门团队开发新的强化学习环境,并将其纳入训练体系。问题在于,这些环境的设计存在极大自由度,能衍生出种类繁多的形式。

有一种情况很可能在无意中发生:人们会从评估指标中获取训练灵感。比如有人会想:“我希望模型发布时评估表现出色,什么样的强化学习训练能实现这个目标?”我认为这种情况确实存在,这也能解释我们观察到的诸多现象。

如果再结合模型本身泛化能力不足的问题,或许就能说明评估表现与现实应用效果脱节的原因,而这种脱节的深层含义,我们至今仍未完全理解。

Dwarkesh Patel:我很喜欢这个说法:真正的奖励黑客,其实是那些过于关注评估的人类研究人员。

对于你提出的问题,我认为有两种思考方向。一种是,既然模型在编程竞赛中表现超强,并不意味着它会自动拥有更好的品味,也不会在改进代码库上做出更优判断,那我们就应该扩展环境套件。不仅要测试它在编程竞赛中的最佳表现,还得让它能为X、Y、Z等各类场景开发出优质应用程序。

另一种方向,或许正是你所暗示的:“为什么编程竞赛中的超强表现,无法让模型在更普遍的场景下成为更有能力的程序员?”

也许我们要做的,不是一味增加环境的数量和多样性,而是找到一种方法,让模型能从一个环境中习得能力,并将其迁移到其他事情上,实现跨场景提升。

Ilya Sutskever:正好你提到了竞技编程,咱们就以此为例。假设有两个学生:一个一心想成为最顶尖的竞技程序员,为此投入了一万个小时深耕这个领域,他解决了所有能找到的问题,记住了各类证明技巧,还能熟练且快速地实现所有算法,最终成为了该领域的顶尖高手之一。

另一个学生觉得“竞技编程挺有意思”,或许只花了100个小时练习,投入远少于前者,但也取得了相当不错的成绩。你觉得这两个人,谁在之后的职业生涯中会发展得更好?

Dwarkesh Patel:第二个。

Ilya Sutskever:没错,我认为目前模型的情况基本就是这样。它们更像第一个学生,甚至有过之而无不及。我们会先明确“模型要擅长竞技编程”,然后收集所有出现过的竞技编程问题,再通过数据增强生成更多同类题目,专门基于这些内容训练模型。最终,我们确实得到了一个顶尖的“竞技程序员”。

用这个类比来理解就很直观了:即便模型经过这样高强度训练,能熟练掌握各类算法和证明技巧,随时调用自如,但它未必能把这些能力泛化到其他场景,这一点也就不难想通了。

Dwarkesh Patel:那用这个类比来看,第二个学生在那100小时微调之前所具备的特质,对应的是什么呢?

Ilya Sutskever:我觉得是他们身上有“那种特质”。我读本科时,身边就有过这样的同学,所以我知道这类人是真实存在的。

Dwarkesh Patel:把“那种特质”和预训练的作用区分开,是个很有意思的角度。

理解你之前说的“预训练无需选择数据”,有一种思路是:预训练其实和那一万小时的专项练习本质没区别。只不过预训练数据里本就包含这类内容,相当于“免费”获得了一万小时的练习量。

但或许你想表达的是,预训练带来的泛化能力并没有那么强。它只是覆盖的数据量极大,未必比强化学习的泛化效果更好。

Ilya Sutskever:预训练的主要优势在于:第一,数据量非常大;第二,你不必费心思考该把什么数据放进预训练里。这是非常自然的数据,并且它确实包含了人们所做的很多事情:人们的想法和很多特征。这就像整个世界通过人类投射到文本上,而预训练试图用海量数据来捕捉这一点。

预训练很难进行推理,因为很难理解模型依赖预训练数据的方式。每当模型犯错时,有没有可能是因为某些东西碰巧在预训练数据中得到的支持不够?“得到预训练支持”可能是一个宽松的术语。我不知道我是否能就此补充任何更有用的东西。我认为没有与预训练相对应的人类类比。

二、AI决策的困境,源于缺少情绪的“价值函数”

Dwarkesh Patel:人们提出过一些关于人类类比预训练的说法。我很想听听你的看法,为什么它们可能是错误的。一种是把人生命最初的18年、15年或13年看作预训练,这个阶段他们不一定有经济产出,但他们在做一些让他们更好地理解世界之类的事情。另一种是把进化看作某种进行了30亿年的搜索,最终产生了人类生命的实例。

我很好奇你是否认为这两种说法中的任何一种与预训练类似。如果不把人类毕生学习比作预训练,你会如何看待它?

Ilya Sutskever:我认为这两者与预训练都有一些相似之处,而预训练试图扮演这两者的角色。但我认为也存在一些很大的差异。预训练的数据量是非常、非常惊人的。

Dwarkesh Patel:是的。

Ilya Sutskever:不知何故,人类即便只接触了预训练数据中极小的一部分,掌握的知识量远不如模型,但对已知内容的理解却深刻得多。哪怕是15岁的少年,也不会犯AI现在常犯的那些错误。

还有一点值得思考:这会不会和进化之类的机制有关?答案或许是肯定的,而且我认为进化在这方面可能更具优势。神经科学家研究大脑的一种常用方法,是观察大脑不同部位受损的人,他们常会表现出各种令人意想不到的奇特症状,这其实非常有趣。

我想到一个相关案例:有个人因中风或事故导致脑损伤,情绪处理能力被破坏,再也感受不到任何情绪。他依然口齿清晰,能解决简单谜题,测试中表现得完全正常,但就是没有了喜怒哀乐,也没有了活力。这让他的决策能力变得极差:选一双袜子要花好几个小时,还会做出糟糕的财务决策。

这一案例恰恰说明了内在情绪对我们成为“可行的行为主体”有多重要。回到你关于预训练的问题:或许如果能从预训练数据中充分提取所有有用信息,也能获得这种类似“情绪驱动的决策能力”,但这种能力能否从预训练中习得,目前还不确定。

Dwarkesh Patel:“那个”是指什么?显然不直接是情感。它似乎像是某种几乎像价值函数一样的东西,告诉你任何决策的最终回报应该是什么。你认为那种东西不会从预训练中隐式地产生吗?

Ilya Sutskever:我认为有可能,我只是说这不是100%显而易见的。

Dwarkesh Patel:但那到底是什么?你如何看待情感?情感的机器学习类比是什么?

Ilya Sutskever:它应该是某种价值函数类的东西。但我不认为有一个很好的机器学习类比,因为目前价值函数在人们所做的工作中并不扮演非常突出的角色。

Dwarkesh Patel:也许值得为听众定义一下什么是价值函数,如果你愿意的话。

Ilya Sutskever:当然,我很乐意展开说。目前强化学习训练智能体的常规做法是这样的:给神经网络一个问题,让模型去解决。模型可能要执行数千甚至数十万次行动或思考,最终生成一个解决方案,这个方案会被评分。

而这个分数会作为训练信号,应用到模型解决问题过程中的每一个行动上。这就意味着,如果任务本身耗时很长,比如训练一个需要长时间才能完成的任务,模型在给出最终解决方案并获得评分前,根本不会有任何学习进展。这是强化学习的朴素做法,据称o1、R1采用的就是这种方式。

价值函数的作用则不同,它相当于“时不时(而非必须等到最后)告诉你当前做得好还是坏”。这个概念在某些领域比其他领域更有用,比如下棋时,你丢了一个棋子,显然是出错了,没必要等到棋局结束,才知道刚才的行为是糟糕的,进而推导出导致这个错误的先前步骤也有问题。

价值函数能帮你缩短等待最终结果的时间。比如你在做数学题或编程任务,尝试探索某个特定解决方案或方向,经过一千步思考后,发现这个方向完全没希望。

一旦得出这个结论,你就能在一千步之前,也就是当初决定沿着这条路径探索的时候,就获得一个奖励信号,相当于告诉自己“下次遇到类似情况,不该选这条路”,这比等到给出最终解决方案时再反馈要早得多。

Dwarkesh Patel:这在DeepSeek R1的论文中提到过——轨迹空间如此之广,以至于可能很难学习从中间轨迹到价值的映射。而且考虑到,例如在编程中,你可能会有一个错误的想法,然后你会回溯,然后改变一些东西。

Ilya Sutskever:这听起来像是对深度学习缺乏信心。当然这可能有难度,但深度学习没有做不到的事情。我认为价值函数应该是有用的,完全期待它们现在或将来会被充分利用。

我提到那个情绪中枢受损的人,更多是想说明:人类的价值函数,或许是通过进化硬编码的方式,由情绪进行重要调节的。而这一点,可能对人类在世界上有效行动至关重要。

Dwarkesh Patel:这正是我想问的。关于情感与价值函数的关联,有件很有趣的事:情感既有极强的实用性,又相对易于理解,这一点非常令人印象深刻。

Ilya Sutskever:我有两个回应。首先,我确实同意,比起我们所学的知识以及正在讨论的这类AI,情感是相对简单的。它们甚至简单到能用人类易懂的方式描述出来,我觉得这会是件很酷的事。

但就效用而言,复杂性与鲁棒性之间存在权衡:复杂的事物可能用处很大,但简单的事物在极广泛的场景下也同样高效。我们的情感大多源自哺乳动物祖先,在进化为人科动物后只经历了轻微微调。

当然,我们还拥有不少哺乳动物可能缺乏的社会性情感,但这些情感并不复杂。也正因为这份简单,它们在如今这个与远古截然不同的世界里,依然能很好地为我们服务。

不过情感也会出错。比如我们的直觉饥饿感,我不确定饥饿算不算情绪,但在食物充裕的当下,它显然没能很好地指导我们的饮食选择。

三、算力规模已触顶,AI的未来重回“研究时代”

Dwarkesh Patel:人们总在谈论扩展数据、扩展参数、扩展算力。有没有更通用的视角来理解“扩展”?还有其他哪些可扩展的维度?

Ilya Sutskever:我认为有一个视角可能是正确的:机器学习过去的运作方式,是人们不断尝试各种方法,只为得到有趣的结果。

后来,“扩展”出现了。随着扩展定律的提出和GPT-3的问世,所有人突然意识到“我们应该扩展”。这正是语言影响思维的典型例子:“扩展”只是一个词,却极具力量,因为它明确告诉了人们该做什么。于是大家纷纷行动:“让我们尝试扩展事物”。而你问“我们在扩展什么?”,答案在当时就是预训练,它是一套特定的扩展配方。

预训练的重大突破,核心在于证实了这套配方的有效性:只要将适量算力、数据与特定规模的神经网络结合,就能产生成果;而且按比例放大这些要素,效果还会更好。企业尤其青睐这种方式,因为它提供了一种低风险的资源投入路径。

相比之下,把资源投入研究要难得多。做研究需要这样号召:“研究人员们,去探索并拿出新成果”,而获取更多数据、更多算力则简单直接得多。你能确定从预训练中一定能有所收获。

根据推特上的一些讨论,Gemini似乎找到了从预训练中挖掘更多价值的方法。但问题在于,预训练终有耗尽数据的一天,数据的有限性是显而易见的。到那时该怎么办?要么进行某种强化版预训练,一套与以往不同的配方;要么转向强化学习,或者尝试其他方向。

而现在,算力已经达到了前所未有的规模,从某种意义上说,我们又回到了需要依赖研究的时代。

换种说法或许更清晰:2012年到2020年(允许一定误差范围),是研究的时代;2020年到2025年左右,则是扩展的时代。因为所有人都在说“这太神奇了,必须继续扩展、不断扩展”,核心就围绕 “扩展” 这一个词。

但如今规模已经足够庞大,还有人坚信“即便现在规模很大,只要再投入100倍资源,一切就会彻底不同”。不可否认,结果肯定会有变化,但要说仅靠扩大100倍规模就能带来质变,我并不认同。

所以,我们其实是回到了研究的时代,只是如今拥有了更强大的计算机。

Dwarkesh Patel:这是个非常有趣的说法。但我还是想问刚才提出的问题:我们在扩展什么,拥有一个“配方”意味着什么?我想我并不清楚在数据、算力、参数、损失是否存在一个非常清晰、几乎像物理定律一样的关系,就像在预训练中存在的那样。我们应该寻求的是哪种关系?我们应该如何思考这个新配方可能是什么样子?

Ilya Sutskever:我们已经看到扩展方向的转变:从预训练转向了强化学习,现在人们正在着力扩展强化学习。根据推特上的讨论,目前强化学习消耗的算力甚至超过了预训练,因为强化学习需要进行极长的推演,生成这些推演本身就需要大量算力,而每次推演能带来的学习收益又相对有限,因此确实会耗费巨额算力。

但我甚至不觉得这能称之为“扩展”。我更想问:“你现在做的事情,是利用算力最高效的方式吗?有没有更具成效的算力使用方法?”我们之前聊过价值函数,或许当人们熟练运用价值函数后,就能更高效地利用资源。如果能找到全新的模型训练方法,你可能会疑惑:“这算扩展,还是只是合理利用资源?”我认为这个边界已经变得有些模糊。

从这个角度来说,当我们回归研究时代,情况会是这样:“让我们试试这个、这个和这个,再试试那个、那个和那个——哦,看,有趣的现象出现了。”我认为行业将会回到这种探索状态。

Dwarkesh Patel:如果真的回归研究时代,退一步说,我们最需要深入思考现有配方的哪个部分?你提到了价值函数,现在人们已经在现有配方中尝试相关应用,比如“LLM-as-a-Judge”等。你可以说这也算一种价值函数,但听起来你心里想的是更根本的东西。我们是否应该彻底重新思考预训练,而不只是在流程末尾添加更多步骤?

Ilya Sutskever:关于价值函数的讨论很有意思。我想强调,价值函数会让强化学习更高效,这一点很重要。但我认为,任何用价值函数能做到的事,没有它也能实现,只是速度会慢很多。最核心的问题是,这些模型的泛化能力远远不如人类。这一点非常明显,也是个极其根本的问题。

四、人类拥有更好的“学习算法”,这是AI尚未掌握的优势

Dwarkesh Patel:那核心就在于泛化能力。这可以拆成两个子问题:一是样本效率,为什么模型学习所需的数据量比人类多得多?

二是抛开数据量不谈,为什么教会模型我们想要的东西,比教会人类难得多?对人类来说,我们不一定需要可验证的奖励,比如你现在可能正在指导一些研究人员,只需和他们交流、展示代码和思考方式,他们就能领悟你的思路和做研究的方法。

你不需要为他们设定繁琐的定制化流程,比如“这是课程的下一部分,现在开始;哦,这次训练不稳定,重新调整”。这两个问题可能存在关联,但我更想探讨第二个,因为它更接近持续学习,而第一个问题则聚焦样本效率。

Ilya Sutskever:关于人类的样本效率,有一个可能的解释是进化。进化赋予了我们一些最有用的基础信息。对于视觉、听觉和运动等能力,有充分理由认为进化给了我们很多先天优势。

比如人类的灵巧度远超现有技术。就算让机器人在模拟环境中大量训练,它们能变得灵巧,但在现实世界中让机器人像人类一样快速掌握新技能,似乎还遥不可及。

这里可以说:“运动能力对我们所有祖先都至关重要,所以在运动方面,我们可能拥有难以置信的先天先验知识。”

视觉领域也可以用同样的逻辑解释。我记得杨立昆(Yann LeCun)说过,孩子只需10小时练习就能学会开车,我们的视觉系统非常强大。

至少我五岁时就对汽车极度着迷,我敢肯定当时我的汽车识别能力已经足以支撑驾驶。一个五岁孩子接触的数据量并不多,大部分时间都待在父母家,数据多样性很低,但视觉能力已经很出色。

但这可能也是进化的结果,而语言、数学和编程领域,情况或许就不同了。

Dwarkesh Patel:但人类在这些领域的学习能力似乎仍然优于模型。显然,模型在语言、数学和编程上比普通人表现更好,但它们的学习能力也比普通人强吗?

Ilya Sutskever:不,显然不是。我的意思是,语言、数学和编程,尤其是后两者,说明,让人擅长学习的关键,可能不是复杂的先天先验知识,而是某种更根本的东西。

Dwarkesh Patel:为什么会是这样?

Ilya Sutskever:想想人类表现出高度可靠性的技能。如果这项技能在数百万年甚至数亿年间,对我们的祖先都至关重要,你可以说人类擅长它是因为进化,我们拥有进化而来的先天先验知识,以某种不显而易见的方式编码,让我们天生擅长这项技能。

但如果人类在一个最近才出现的领域(比如数学、编程),依然表现出强大的能力、可靠性、鲁棒性和学习能力,那就更能说明,人类可能只是拥有更好的机器学习机制,就这么简单。

Dwarkesh Patel:我们该如何理解这种机制?它对应的机器学习类比是什么?

它有几个有趣的特点:需要的样本更少,更接近无监督学习。比如青少年学开车,他们不是在接受预设的、可验证的奖励,而是通过与机器和环境的互动学习,所需样本量少得多,看起来更接近无监督学习,而且鲁棒性更强?

Ilya Sutskever:鲁棒性强得多,人类的鲁棒性确实令人震惊。

Dwarkesh Patel:你有统一的思路解释为什么这些特点会同时存在吗?什么样的机器学习类比能实现类似效果?

Ilya Sutskever:你一直问的问题是,青少年司机如何在没有外部教师的情况下自我纠正、从经验中学习?答案是他们有自己的价值函数,一种通用的感知,而且这种感知在人类中极其鲁棒。除了成瘾等少数例外,人类的价值函数实际上非常、非常可靠。

比如青少年开始开车时,立刻就能感知到自己开得怎么样、有多糟糕、有多不自信。然后他们会观察、调整,学习速度非常快,10个小时后就能上路行驶。

Dwarkesh Patel:人类显然已经有了这样的解决方案,但我好奇他们是如何做到的,以及为什么这对AI来说如此困难?我们需要如何重新定义模型的训练方式,才能实现类似的效果?

Ilya Sutskever:这是个很好的问题,我对此有很多看法。但不幸的是,我们所处的环境并不允许自由讨论所有机器学习想法,这就是其中之一。很可能存在实现的方法,我认为这是可行的,人类本身的存在就证明了这一点。

不过可能还有一个障碍:人类的神经元可能比我们想象的进行了更多计算。如果这是真的,而且起到了重要作用,那么事情可能会更困难。但无论如何,我确实认为这指向了某种机器学习原理的存在,我对此有一些见解,但可惜的是,环境不允许我详细讨论。

五、SSI只专注于研究,在“直奔超智能”与“渐进部署”间寻找平衡点

Dwarkesh Patel:我很好奇,你说我们回到了研究时代,而你2012到2020年就身处那个阶段。如果真的回归,现在的氛围会是怎样的?

比如,即便AlexNet之后,实验所需的计算量仍在不断增加,前沿系统的规模也在扩大。你觉得现在这个研究时代,依然需要巨大的计算量吗?是否需要回溯旧论文、挖掘过往研究?

你曾在谷歌、OpenAI、斯坦福这些地方待过,经历过研究氛围更浓厚的时期。我们该对现在的科研社区抱有怎样的期待?

Ilya Sutskever:扩展时代的一个后果是,“扩展”吸走了所有关注。因为所有人都聚焦于此,大家开始做同样的事情。到最后,市场上的公司数量甚至超过了真正有价值的想法数量。硅谷有句谚语说“想法廉价,执行力才是一切”,这话有道理,但我也看到有人在推特上反问“如果想法真的廉价,为什么现在没人有好想法?”,我觉得这也说到了点子上。

从瓶颈角度看,研究进展受两个因素制约:一是想法,二是实现想法的能力,这包括算力和工程能力。比如回到90年代,当时人们其实有不少好想法,但苦于没有足够强大的计算机验证,只能做小规模演示,无法说服他人,所以那时的瓶颈是算力。

而到了扩展时代,算力大幅增长。虽然仍有“需要多少算力”的疑问,但如今的算力已经足够支撑想法验证。举个例子,AlexNet只用了两块GPU,Transformer的实验也只用到8到64块2017年的GPU,换算到现在大概也就两块GPU的性能。甚至o1的推理过程,也算不上计算量最大的操作。

所以,研究确实需要一定算力,但绝非必须用到有史以来最顶级的算力。当然,如果你想构建当前最优的系统,更多算力会有帮助——尤其是在大家都处于同一范式下时,算力会成为核心竞争优势之一。

Dwarkesh Patel:我想请教这段历史,因为你亲身经历过。听起来当时用较少的计算量就能发展核心想法,但Transformer并没有立刻走红。它之所以成为大家争相实验、构建的基础,是因为在越来越高的计算量水平上得到了验证,对吗?

Ilya Sutskever:没错。

Dwarkesh Patel:如果SSI有50个不同的想法,在没有其他前沿实验室那样的算力支持下,怎么判断哪个是下一个Transformer,哪个只是脆弱的构想?

Ilya Sutskever:我可以说说我的看法。简单来说,SSI用于研究的计算量其实并不小,背后的逻辑很简单。

SSI已经筹集了30亿美元(约合人民币213.1亿元),这绝对是一笔巨款。你可能会说“其他公司筹集的资金更多”,但要知道,那些公司的很多算力都用于推理任务,大额资金也常指定用于推理。

而且,若要推出需要推理支持的产品,还需要大量工程师、销售人员,很多研究资源也得投入到产品相关功能的开发中。所以,扣除这些之后,真正留给核心研究的资源差距,并没有表面上那么大。

另外,如果你在做的是差异化的事情,真的需要用顶级规模来验证吗?我完全不这么认为。对我们来说,现有的算力足够让我们自己,也让其他人相信我们做的事情是正确的

Dwarkesh Patel:有公开估计称,像OpenAI这样的公司,每年仅实验方面的花费就有50到60亿美元(约合人民币355.2亿元到426.2亿元),这还不包括推理等其他开支。也就是说,他们一年的研究实验花费,比你们的总资金还多。

Ilya Sutskever:这取决于资金的用途。他们以及其他类似公司,对训练算力的需求要大得多——涉及更多工作流、更多模态,要做的事情更繁杂,资源自然就分散了。

Dwarkesh Patel:SSI将如何盈利?

Ilya Sutskever:我的回答是,目前我们只专注于研究,盈利的答案会随着研究推进自然显现。我相信会有很多可行的方向。

Dwarkesh Patel:SSI的计划仍然是直奔超级智能吗?

Ilya Sutskever:也许吧。我认为这有其价值——不受日常市场竞争的干扰,能专注研究,这是很大的优势。但有两个原因可能让我们改变计划:一是务实考量,如果实现超级智能的时间线比预期长得多;二是,让强大的AI问世并影响世界,本身就是一件极具价值的事。

Dwarkesh Patel:那为什么你们的默认计划是直奔超级智能?OpenAI、Anthropic等公司的思路很明确:“先推出较弱的AI,让公众逐渐适应、做好准备”。直接构建超级智能,为什么可能是更好的选择?

Ilya Sutskever:我来分析一下利弊。支持直奔超级智能的理由是,市场竞争会带来巨大压力,迫使你做出艰难权衡。如果能隔离这些干扰,专注研究,直到准备充分再推出产品,而不是仓促上阵,这是很大的优势。

但反对的理由也同样成立:“让世界看到强大AI的实际用处,是推广它的唯一方式”。

Dwarkesh Patel:我觉得不止是推广……

Ilya Sutskever:是“传播AI”,不是传播想法,是让AI真正落地。

Dwarkesh Patel:你说的“传播AI”是什么意思?

Ilya Sutskever:假设你写了一篇关于AI的文章,描述它会怎样、能做什么,读者可能只会觉得“这篇文章很有趣”。但如果人们亲眼看到AI正在做这些事、实现这些功能,那种冲击力是无可比拟的。所以我认为,让AI公开落地有很大好处,这也是我们可能不会完全“直奔超级智能”的原因之一。

Dwarkesh Patel:我觉得还有更深层的原因。在人类其他工程和研究领域,没有哪个最终产物是仅凭“思考如何让它更安全”就变得安全的。比如现在每英里的飞机失事率比几十年前低得多,Linux系统的漏洞比以前难发现得多,核心原因都是这些系统被广泛部署到现实世界中——人们发现故障、纠正问题,系统才变得更健壮。

我不认为AGI和超人类智能会是例外,尤其是考虑到(我希望之后能讨论这个话题),超级智能的危害可能不只是“恶意回形针优化器”那么简单。它是一种极其强大的存在,我们甚至无法想象人们会如何与它互动、用它做什么。逐步接触它,似乎是分散风险、帮助人们做好准备的更好方式。

六、超级智能会“在实践中学习”

Ilya Sutskever:关于这一点,我认为即使是“直奔超级智能”的方案,也会包含逐步发布的过程,这是计划中固有的一部分。关键在于,你首先发布的是什么。

其次,你一直倡导的“持续学习”,我认为非常重要且正确。这里可以用“语言如何影响思维”来解释——有两个术语塑造了大家的认知:AGI(人工通用智能)和“预训练”。

先说说AGI这个术语。它的出现其实是对“狭义AI”的回应。回溯历史,早期的跳棋AI、国际象棋AI、游戏AI,虽然能在特定领域表现出色(比如击败卡斯帕罗夫),但功能极其单一,被称为“狭义AI”。于是有人提出,我们需要的是“通用AI”——一个能胜任所有事情的AI,这个术语也因此受到广泛关注。

再看“预训练”,尤其是预训练的核心配方。现在人们做强化学习的方式,可能正在淡化预训练留下的认知烙印,但预训练有个特点:投入越多,模型在各方面的表现都会或多或少均匀提升。“预训练催生AGI”的观念也随之深入人心。

但问题在于,AGI和预训练的逻辑在某种意义上“超出了目标”。如果你结合预训练的背景思考AGI,会发现人类其实并不是AGI——我们确实有基础技能,但缺乏大量专业知识,反而极度依赖持续学习。

所以,假设我们成功造出了安全的超级智能,该如何定义它?它在持续学习的曲线上会处于什么位置?

我想象中的超级智能,就像一个15岁的少年,求知欲强、渴望工作,但懂得并不多,却是个优秀的学习者。它会像人类一样,去当程序员、当医生,在实践中学习。因此,部署本身就会包含一个试错学习的过程,它不是一个“成品”,而是一个“成长型”存在

Dwarkesh Patel:我明白了。你说的超级智能,不是一个已经掌握经济中所有工作技能的成品心智——比如早期OpenAI章程中对AGI的定义是“能做人类所有工作”,而你提出的是“能够学会做所有工作”的心智,这才是超级智能。

Ilya Sutskever:是的。

Dwarkesh Patel:一旦有了这种学习算法,它就会像人类劳动者加入组织一样,被部署到世界中。

Ilya Sutskever:完全正确。

Dwarkesh Patel:这可能会带来两种结果,也可能都不会发生。第一,这个高效的学习算法变得超人类,在机器学习研究领域达到甚至超越你的水平,进而推动自身不断进化,变得越来越强。

第二,即便没有发生这种情况,如果你有一个单一模型(这是你明确提出的愿景),它的多个实例被部署到经济的不同领域,从事不同工作,在实践中持续学习、掌握所有人类能掌握的技能,同时整合所有学习成果——那么即便没有软件层面的递归自我改进,这个模型在功能上也会成为超级智能。毕竟人类无法像这样整合彼此的心智。

你认为广泛部署会引发某种“智能爆炸”吗?

Ilya Sutskever:我认为我们很可能会经历快速的经济增长。对于广泛部署,有两个相互冲突的论点:一方面,一旦拥有能快速学习的AI,且没有法规限制(当然法规可能会存在),市场会有强大的动力推动它们的部署。

通过广泛部署实现快速经济增长,我认为是非常可能的。但增长速度有多快,很难预测。一方面,我们有了高效的“劳动者”;另一方面,世界规模庞大,各类事务的发展速度不同。而且不同国家的规则可能不同,规则更友好的国家,经济增长可能会更快。这些都难以预判,但快速增长是大概率事件。

七、应该构建“关心有情生命”的AI

Dwarkesh Patel:在我看来,这是一种非常不稳定的局面。从极限角度看,我们知道这种情况是可能的:如果有一个学习能力和人类相当,但能以人类无法做到的方式整合不同实例的“大脑”,它在物理层面是可行的——人类和数字计算机都是现实存在的,只需将两者的优势结合就能实现。

它的潜力也极其强大。“经济增长”只是一种说法,戴森球本质上就是极致的经济增长。但更直接的是,它可能在极短时间内爆发式进化:SSI雇佣的员工大概六个月后能产生净生产力,人类学习速度已经很快了,而这个“东西”的进化速度会快得多。你如何看待让这个过程平稳推进?为什么SSI有能力做好这件事?这正是我想知道的SSI的相关计划。

Ilya Sutskever:我思维上的一个转变是,现在更重视AI的渐进式部署和提前落地。关于AI,一个核心难题是我们讨论的都是尚未存在的系统,很难真正想象它们的形态。

我认为,人们很难真正“感知”AGI。我们可以谈论它,但就像年轻时谈论年老的感受一样——能对话、能尝试想象,却始终无法真切体会,直到亲身经历。

围绕AGI及其未来力量的诸多疑问,根源都在于它太难以想象了。未来的AI会截然不同,它将极具力量,而AI和AGI的核心问题,本质上就是“力量”的问题。

当力量达到极致时,会发生什么?过去一年我想法的一个转变(这个转变可能会反过来影响公司计划)是:如果无法想象,就必须展示。我坚信,大多数从事AI工作的人也无法真正想象它,因为它和我们日常所见的一切都太不一样了。

我还有一个预测:随着AI变得更强大,人们的行为会发生改变,会出现各种前所未有的情况。比如,无论好坏,前沿公司和政府将在其中扮演关键角色;你已经能看到一些苗头——激烈竞争的公司开始在AI安全领域合作,OpenAI和Anthropic已经迈出了第一步,这是我三年前在演讲中就预测过的。

我还认为,当AI的强大变得更显而易见时,政府和公众会更有意愿采取行动,而“展示AI”正是推动这一切的重要力量。

第二点,AI正在被构建,我们需要做什么?目前,人们觉得AI不够强大,很大程度上是因为它常犯错误。但我认为,当AI开始让人真正感受到“强大”时,所有AI公司处理安全的方式都会发生巨大转变——他们会变得极度谨慎。这是我的预测,我们可以拭目以待。现在大家对AI安全的重视不足,本质上是因为看着今天的AI,很难想象未来的AI会有多强大。

第三点,公司应该致力于构建什么?现在大家都执着于“自我改进的AI”,这只是因为有价值的想法太少了。但我认为存在更好的方向,而且最终所有人都会认同——那就是构建“稳健对齐、明确关心有情生命”的AI

值得一提的是,构建关心所有有情生命的AI,可能比只关心人类的AI更容易,因为AI本身也可能是有情识的。就像人类的镜像神经元和对动物的同理心(虽然强度有限,但确实存在),这可能是一种涌现属性——用模拟自身的回路去模拟他人,这是最高效的方式。

Dwarkesh Patel:但即使让AI关心有情生命,我不确定解决对齐问题后,这是否是该优先做的事,未来大多数有情生命可能都是AI——万亿、甚至千万亿个AI,人类只占极小一部分。如果目标是让人类在未来文明中保持某种控制权,这似乎不是最好的标准。

Ilya Sutskever:确实,这可能不是最优标准。我说三点:第一,关心有情生命本身有其价值,值得被考虑;第二,如果能列出一份简短清单,给出这类情况下公司可参考的方向,会很有帮助;第三,如果能以某种方式限制最强大超级智能的力量,将从根本上缓解许多担忧。具体如何实现我不确定,但对于真正强大的系统来说,这至关重要。

Dwarkesh Patel:在讨论对齐问题之前,我想深入聊聊:超级智能的上限在哪里?你如何定义它?基于“学习效率”的思路,它只是学习新技能、新知识的速度极快?还是拥有更庞大的策略库?

它是否存在一个单一、凝聚的核心“自我”?如果存在,你觉得它相对于人类文明,会是类似“神”的存在,还是只是另一个智能体,或是智能体集群?

Ilya Sutskever:在这个领域,不同人有不同直觉。我认为它肯定会极其强大。最可能的情况是,多个这样的AI会在大致相同的时间被创造出来。如果集群规模足够大——比如达到大陆级别——它的力量会难以想象。我能说的是,对于这种级别的AI,如果能以某种方式约束它们,或者建立相关协议,会是一件好事。

超级智能的担忧核心是什么?如果一个系统足够强大,即使你让它“专注关心有情生命”,最终结果也可能不是我们想要的——就是这么简单。

顺便说一句,答案可能是:不要以常规方式构建强化学习智能体。人类其实是“半强化学习智能体”——我们追求一个奖励,然后情绪或其他因素让我们厌倦,转而追求另一个奖励。

市场是短视的智能体,进化也是如此——在某些方面极其聪明,在另一些方面又非常愚蠢。政府被设计成三权分立、相互制衡的结构,这也产生了特定效果。超级智能可能也是类似的逻辑。

这个讨论的难点在于,我们谈论的是尚未存在、也不知道如何构建的系统。我坚信,现在人们正在做的事情会有进展,但最终会走向瓶颈——它会持续改进,但不会成为那个终极“它”。我们还不知道如何构建“它”,而关键就在于理解“可靠的泛化能力”。

还有一点:对齐困难的根源,可能是学习人类价值观的能力很脆弱,优化这些价值观的能力也很脆弱——而这些都是“不可靠泛化”的体现。为什么人类泛化能力更强?如果AI的泛化能力大幅提升,会发生什么?这些问题目前都没有答案。

Dwarkesh Patel:人们如何设想AI的平稳发展?你已经勾勒了它的演变路径:持续学习的智能体、极其强大、可能有多个不同的AI。你如何看待多个“大陆规模”的计算智能并存?这有多危险?我们如何降低风险?如何在保护某种均衡的同时推进——毕竟可能存在未对齐的AI和恶意行为者?

Ilya Sutskever:这就是我支持“关心有情生命的AI”的原因之一。我们可以争论它的好坏,但如果前N 个具有决定性意义的系统真的关心、热爱人类(或类似的价值导向),显然能让事情顺利推进——当然,这需要实际实现。

但长期来看,如何实现均衡?我有一个答案,虽然我并不喜欢,但必须考虑。

短期内,强大AI普及的世界可能会实现“普遍高收入”,大家都过得很好。但佛教说“变化是唯一的不变”。政府、政治结构都有保质期,新的形式出现、运作,然后衰落,这是历史规律。

长期均衡的一种可能:每个人都拥有一个听从自己指令的AI,这很好——但如果这种状态无限持续,人类会逐渐脱离参与:AI为人赚钱、争取政治诉求、提交报告,人类只需说“很好,继续”,最终不再是文明的参与者。这是一种不稳定的状态。

我要提前说明,我不喜欢这个解决方案,但它确实是一个选项:让人类通过某种“Neuralink++”技术,变成“半AI形态”。这样一来,AI理解的事物,人类也能同步理解——认知是整体传输的。当AI处于某种场景时,人类也能完全参与其中,这可能就是均衡的答案。

Dwarkesh Patel:我在想,情感在人类身上演化了数百万年(甚至数十亿年),至今仍强烈指导着我们的行动,这是否是“对齐成功”的一个例子?

具体来说——我不知道称它为价值函数还是奖励函数更准确——脑干有一个指令:“与更成功的人交配”。大脑皮层负责理解现代社会中“成功”的定义,但脑干能对齐大脑皮层,说:“无论你如何定义成功——我不够聪明,无法理解——你都要追求这个指令。”

Ilya Sutskever:我有一个更普遍的观点:进化如何编码高级欲望,实际上非常神秘。我们很容易理解进化如何让我们追求闻起来香的食物——气味是化学信号,只需编码“追求这种化学物质”即可。

但进化还赋予了我们各种社会欲望:我们在乎被社会正面看待、在乎拥有良好的地位,这些社会直觉我强烈认为是内置的。我不知道进化是如何做到的——因为这是大脑中表征的高级概念,不是像气味那样的低级信号。

大脑需要处理大量信息,才能理解社会层面的情况,而进化却能明确“这就是你应该在乎的东西”。更神奇的是,这些复杂的社会欲望似乎是最近才进化出来的,进化能如此轻松地硬编码高级欲望,我至今没有找到满意的解释,曾有过一些想法,但都站不住脚。

Dwarkesh Patel:更令人印象深刻的是,这些欲望是你在生命中逐渐学会的——这说得通,因为大脑是智能的。但另一种理解是,欲望是内置在基因组中的,而基因组并不智能。它甚至无法清晰定义这些高级特征,却能将其构建到基因里。

Ilya Sutskever:本质上,基因组的工具是“构建大脑的配方”。比如,“将多巴胺神经元连接到气味传感器,闻到好闻的气味就产生进食欲望”——这种配方我能想象。

但我很难想象,基因组会编码“在乎大脑某一区域的复杂计算结果”——这正是我觉得神秘的地方。我可以提出一个推测,但也要说明它可能是错误的:

大脑有不同脑区,皮层虽然结构均匀,但脑区和神经元主要与邻居交流,这也是脑区存在的原因(比如语言处理需要相关神经元集中协作)。而且这些脑区在不同人脑中的位置大致固定。所以也许进化硬编码了大脑的某个“GPS坐标”,说:“当这个位置的神经元放电时,就是你应该在乎的东西。”这在进化的能力范围内。

Dwarkesh Patel:但有例子反驳这一点。比如天生失明的人,他们皮层中原本负责视觉的区域会被其他感觉占用。如果视觉相关的欲望或奖励功能依赖固定脑区,那失明者的这些功能应该会失效,但事实似乎并非如此——比如失明者依然会在乎“身边的人是否喜欢自己”,而这通常需要视觉线索。

Ilya Sutskever:我完全同意。还有一个更强的反驳:有些孩子在童年时被切除了半个大脑,但他们仍然拥有所有核心脑区——这些脑区只是转移到了仅剩的一个半球。这说明脑区位置并非固定,我的推测不成立。

所以这仍然是一个谜,但很有趣:进化总能极其可靠地赋予人类关心社会性事物的能力,即使是有精神障碍、情感缺陷的人,往往也在乎这一点。

八、 “我们完全是一家(处于)研究时代的公司”

Dwarkesh Patel:SSI计划做哪些与众不同的事?想必你希望公司在超人类智能到来时,成为前沿玩家之一。你创立SSI,应该是认为“我有一套其他公司没有的方法,能安全实现这个目标”,这个核心差异是什么?

Ilya Sutskever:简单来说,我有一些认为很有前景的想法,想通过研究验证它们是否真的可行。就是一次尝试而已。如果我们之前讨论的、关于理解泛化能力的那些想法被证明是正确的,那我们就能拥有真正有价值的成果。

这些想法能成功吗?我们正在做研究,SSI完全是一家“研究时代”的公司。过去一年我们已经取得了不错的进展,但还需要继续推进、做更多研究。我把这看作是努力成为这个领域有话语权的参与者。

Dwarkesh Patel:你的联合创始人兼前CEO最近离职加入了meta,大家都在质疑“如果有很多突破正在发生,这种情况似乎不太可能出现”,你怎么回应?

Ilya Sutskever:我只需提醒几个可能被遗忘的背景事实。当时我们正在以320亿美元(约合人民币2273亿元)的估值融资,meta介入提出收购,我拒绝了,但我的前联合创始人在某种程度上同意了。结果是,他获得了大量短期流动性,而且他是SSI中唯一加入meta的人。

Dwarkesh Patel:听起来SSI的计划是,在人类历史进入超人类智能这个关键时期时,成为前沿公司。你对如何让超人类智能平稳发展有自己的想法,但其他公司也会尝试各自的路径。SSI在推动超级智能平稳发展方面,方法上有什么独特之处?

Ilya Sutskever:SSI的主要差异在于技术路径。我们有一套不同的技术方法,我认为它很有价值,正在全力推进。

但我认为,最终大家的对齐策略会趋于一致。随着AI变得更强大,“应该采取什么策略”会逐渐清晰——比如需要找到相互沟通的方式,确保第一个真正的超级智能是对齐的,关心有情生命、人类、民主等,或是这些价值的某种组合。

这是每个人都应该努力实现的目标,也是SSI正在做的。我认为现在或不久之后,其他公司也会意识到这一点,朝着同一个方向努力。我们拭目以待。

随着AI变强,世界会真正改变,一切都会变得截然不同,人们的行为方式也会随之改变。

Dwarkesh Patel:说到预测,你对那种“能像人类一样学习、进而变得超人类”的系统,有什么时间上的预测?

Ilya Sutskever:大概5到20年。

Dwarkesh Patel:我想理清你对未来发展的看法。是不是说,未来几年其他公司会继续沿用现有方法,然后陷入停滞?这里的“停滞”是指它们的收入不会超过几千亿美元的较低水平吗?你认为“停滞”具体意味着什么?

Ilya Sutskever:我认为不同公司的“停滞”状态会非常相似。即便停滞,这些公司也能获得惊人的收入——可能不是利润,因为它们需要努力差异化竞争,但收入肯定很可观。

Dwarkesh Patel:但你的模型暗示,当正确的解决方案出现时,所有公司会趋于一致。我很好奇你为什么这么认为?

Ilya Sutskever:我更多指的是对齐策略上的一致。技术方法上最终也可能趋同,但我重点说的是对齐策略——大家会逐渐明确“到底应该做什么”。

Dwarkesh Patel:我想更清楚地理解你的未来图景。目前有很多不同的公司,你预计它们的现有方法会继续产生收入,但无法达到类人类学习者的水平。所以会出现不同的公司分支:你们、Thinking Machines以及其他实验室,也许其中一家找到了正确方法。但他们产品的发布,会让其他人清楚知道该怎么做吗?

Ilya Sutskever:具体怎么做可能不会很明确,但会传递一个关键信息——某种不同的东西是可行的。然后人们会尝试破解其中的原理。

不过有一点没被讨论:随着AI能力的每一次提升,做事的方式都会发生某种变化,但我不知道具体是哪些变化。我认为这会很重要,但无法确切说明。

Dwarkesh Patel:默认情况下,拥有这种模型的公司应该会获得所有收益,因为它们拥有模型以及模型在世界中积累的技能和知识。有什么理由认为这些好处会被广泛分配,而不是只归属于第一个启动持续学习循环的公司?

Ilya Sutskever:我认为会发生这样的情况:首先看AI发展的历史,一家公司取得进展后,另一家会仓促跟进,一段时间后推出类似产品,然后在市场上竞争、压低价格。从市场角度看,未来可能也会如此。

顺便说一句,我们讨论的是理想情况。理想的世界里,我们有这些强大的类人类学习者,而且超级智能也可以是狭隘的——既有用又专注于特定领域,我们可以拥有很多这样的狭隘超级智能。

假设一家公司靠这类AI获得巨额利润,很快会有其他公司进入市场竞争。竞争会偏向专业化——就像在市场和进化中看到的那样,会出现很多不同的细分领域,不同公司占据不同赛道。比如一家AI公司擅长某个复杂的经济领域,另一家擅长另一个领域,第三家则精通诉讼。

Dwarkesh Patel:这和类人类学习的隐含意义不矛盾吗?类人类学习意味着它能学习……

Ilya Sutskever:它确实能学习,但学习需要积累。要在某个领域达到惊人的精通程度,需要投入大量算力;其他人要在另一个领域做到顶尖,也需要付出巨大的算力和经验成本。你已经通过大量学习达到了某个高点,其他人不会愿意再从头学习你已经掌握的东西。

Dwarkesh Patel:这似乎需要很多不同的公司同时拥有类人类持续学习智能体,这样它们才能在不同分支上各自探索。但如果一家公司率先获得了这种智能体或学习者,理论上它完全可以让一个实例学习经济中的每一份工作,这对一家公司来说似乎是可行的。

Ilya Sutskever:这是个合理的论点,但我的强烈直觉是事情不会这样发展。理论上,理论和实践没有区别,但在实际中,两者差异很大。这就是其中一种情况。

Dwarkesh Patel:很多人对递归自我改进模型的明确预期是,服务器里会有一百万个“伊利亚”,提出不同想法,导致超级智能快速出现。

你对自己所做事情的可并行化程度有什么直觉?复制“Ilya”能带来多少收益?

Ilya Sutskever:我不知道。但肯定会有收益递减——你需要的是想法不同的人,而不是完全相同的复制品。如果有一百个和我一模一样的副本,我不确定能获得多少额外价值,真正需要的是思维各异的个体。

九、预训练导致所有模型趋同,而强化学习才开始带来差异化

Dwarkesh Patel:不同公司发布的模型,即便可能基于非重叠数据集训练,彼此却如此相似,这真的很不可思议,为什么会这样?

Ilya Sutskever:也许这些数据集并不像看起来那样毫无重叠。

Dwarkesh Patel:但从某种意义上说,即便单个人类的效率可能不如未来的AI,但人类团队的多样性或许更有价值。我们该如何在AI中创造有意义的多样性?仅仅提高温度只会导致胡言乱语,我们想要的是像不同科学家那样,拥有不同偏见、不同想法的多样性。怎样才能让AI智能体具备这种多样性?

Ilya Sutskever:AI缺乏多样性的核心原因是预训练——所有预训练模型几乎一致,因为它们都基于相似的数据训练。而强化学习和后期训练阶段,才开始出现一些差异化,因为不同团队会采用不同的强化学习训练方法。

Dwarkesh Patel:我以前听你暗示过,自我博弈是一种获取数据、让智能体与同等水平的其他智能体配对以启动学习的方法。为什么目前没有关于这类方法在LLM上有效的公开提议?

Ilya Sutskever:我想说两点。首先,自我博弈的有趣之处在于,它提供了一种仅靠计算、无需额外数据就能创建模型的方式。如果数据是最终瓶颈,那么这种仅依赖计算的方法就极具吸引力。

但问题在于,过去的自我博弈方式——让智能体相互竞争——只适用于培养特定技能,过于狭隘,比如谈判、冲突处理、某些社交技能或策略制定。如果目标是这些技能,自我博弈会有用,但适用范围有限。

实际上,自我博弈已经以不同形式找到了应用场景。比如辩论、证明者-验证者模式,或是“LLM作为评判者”的机制——评判者会被激励去发现其他智能体工作中的错误。你可以说这不完全是传统意义上的自我博弈,但确实是人们正在采用的相关对抗性设置。

真正的自我博弈,是智能体之间更普遍竞争的一个特例。对竞争的自然反应就是尝试差异化——如果把多个智能体放在一起,告诉它们“你们都要研究同一个问题,且可以查看其他人的研究方向”,它们会思考:“既然他们已经采用了这种方法,我或许不该再跟进,而应该选择有差异化的路径。”这种设置能创造追求方法多样性的激励。

十、为什么说Ilya Sutskever是世界上AI研究品味最好的人之一?

Dwarkesh Patel:最后一个问题:什么是研究品味?你显然被认为是世界上AI研究品味最好的人之一,也是深度学习史上诸多重要成果(从AlexNet到GPT-3等)的合著者。研究品味到底是什么?你如何描述自己提出这些想法的方式?

Ilya Sutskever:我可以谈谈自己的经验。不同的人有不同的做法,指导我的核心原则是:对AI应有形态的审美,源于对人类本质的正确思考。很多人容易错误理解人类,但“正确思考”意味着抓住根本。

举几个例子:人工神经元的概念直接受大脑启发,这是个伟大的想法。为什么?因为大脑有很多器官和褶皱,但褶皱可能不是关键,神经元的核心价值在于其庞大的数量——这一点让人感觉是本质性的,所以我们选择聚焦神经元,同时设想用局部学习规则来改变神经元间的连接,这与大脑的工作逻辑是合理契合的。

再比如分布式表示的概念:大脑会对经验做出反应,因此我们的神经网络也应该从经验中学习——这也是基于对大脑本质的思考。

我会不断追问:某个东西是根本性的,还是非根本性的?事情本该是什么样子?这种思考贯穿始终,同时我会从多个角度寻找一种“美”——这种美源于简洁、优雅,以及对大脑的正确启发。这些要素越契合,我对自己自上而下的信念就越有信心。

自上而下的信念,是在实验结果与预期相悖时支撑我的力量。如果一味相信数据,有时可能会因为某个未发现的错误而否定正确的方向。这时如何判断是该继续调试,还是放弃方向?这就需要自上而下的思考:坚信事情必须是这样,这类方法必然有效,因此值得坚持推进。而这种信念,正是源于对“美”、简洁性和大脑启发的多方面考量。

Dwarkesh Patel:好的,我们就到这里。

Ilya Sutskever:非常感谢。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。