当前位置: 首页 » 资讯 » 新科技 » 正文

Ilya Sutskever 重磅3万字访谈:AI告别规模化时代,回归“研究时代”的本质 | 全文+重点附视频

IP属地 中国·北京 Web3天空之城 时间:2025-11-26 12:18:58

|未经许可不得转载星标本号获取最新顶级认知|

整理:Web3天空之城


城主说|在硅谷的叙事中,Ilya Sutskever 是一个图腾般的名字。作为 ImageNet 革命的推手、OpenAI 的联合创始人以及 GPT 系列的核心缔造者,他亲手开启了过去十年深度学习的辉煌时代。然而,当全世界都在疯狂堆叠 GPU、试图通过扩大模型规模(Scaling)来触碰 AGI(通用人工智能)的圣杯时,这位技术先知却选择了转身。

离开 OpenAI 后,Ilya 创立了 SSI(Safe Superintelligence),一家没有任何商业产品压力、只专注于单一目标的研究机构。在昨晚放出的 Dwarkesh Patel 的一场深度对话中,Ilya 罕见地披露了他对当前 AI 发展瓶颈的底层思考, 指出行业正从单纯的“规模化(Scaling)”时代回归到注重底层创新的“研究(Research)”时代。对话涵盖了预训练与强化学习的局限性、人类学习效率与进化的类比、以及情感和价值函数在智能中的作用。此外,Ilya 详细阐述了 SSI(Safe Superintelligence)直接追求超级智能的战略考量,讨论了 AI 在经济和部署层面的潜在路径,并最后分享了他独特的“研究品味”和关于 AI 发展美学的见解。

核心观点摘要“2012 年到 2020 年是‘研究时代’;2020 年到 2025 年是‘规模化时代’。现在,我们正重新回到拥有超级算力的‘研究时代’。” “目前的模型就像一个练习了一万小时竞赛题的学生,虽然能解题,但缺乏真正的专家直觉与品味。” “市场竞争是一场‘老鼠赛跑’(Rat Race)。SSI 的战略是切断所有商业干扰,直面超级智能的构建。” “丑陋在研究中没有立足之地。伟大的工作必须是简洁、优雅且符合生物学直觉的。” “如果我们希望超级智能是安全的,它必须具备一种能够‘关怀有感知生命’的底层属性。”

从规模化回归研究 :单纯的规模扩展(Scaling)已遭遇瓶颈,行业正重新回到需要根本性创新的“研究时代”。

预训练与强化学习的局限 :目前的模型虽然在评估中表现出色,但缺乏人类的泛化能力和“特质因素”,类似于只会做题的学生而非真正的专家。

直接追求超级智能 :SSI 旨在避开短期商业竞争的“老鼠赛跑”,专注于构建安全、关怀有感知生命的超级智能。

持续学习的重要性 :未来的 AI 不应是静态的成品,而应具备像人类一样持续学习和适应新工作的能力。

研究的美学 :伟大的研究往往源于对大脑机制的正确直觉,追求简洁、优雅与美感。

视频完整版:

告别“规模化”迷信,重返“研究时代”


在过去五年里,AI 行业被一个强大的词汇统治:“Scaling”(规模化)。自从 GPT-3 横空出世,行业达成了一种默契——只要向神经网络中通过堆叠更多的数据和算力,智能就会自然涌现。这种线性思维让大公司趋之若鹜,因为它提供了一条低风险的资源变现路径。

然而,Ilya 敏锐地指出,这条路正在变得拥挤且低效。“预训练数据的红利终将耗尽,数据是有限的。当你把规模扩大 100 倍后,单纯的量变可能不再带来质变。”

他将 AI 的发展史划分为极其清晰的阶段:2012 年至 2020 年是百花齐放的“研究时代”,人们尝试各种疯狂的想法;随后的五年是“规模化时代”,所有人都在做同一件事。而现在,钟摆正在回摆。“我们回到了研究时代,区别仅仅在于,我们现在拥有了巨大的计算机。” 这意味着,未来的突破不再仅仅依赖于谁的集群更大,而在于谁能找到新的“配方”——一种比单纯预训练更高效的学习范式。

只会做题的“优等生”:预训练模型的阿喀琉斯之踵


为了解释当前大模型的局限性,Ilya 打了一个精妙的比方:

想象两个学生。学生 A 为了赢得编程比赛,练习了一万小时,背下了所有算法和技巧;学生 B 只练习了一百小时,但他对编程有深刻的“品味”和直觉。“目前的模型更像是学生 A。我们通过数据增强让它见过所有可能的考题,它看起来很强,但一旦遇到未曾见过的领域,它的泛化能力远不如拥有‘特质因素’的人类。”

这种“高分低能”的现象在实际应用中屡见不鲜。模型可以在基准测试(E-vals)中拿高分,但在解决现实世界的复杂 Bug 时,却可能陷入“修复一个错误、引入另一个错误”的死循环。Ilya 认为,这是因为当前的强化学习(RL)训练虽然让模型学会了迎合评估标准,却并未真正赋予其像人类一样的推理和自我修正能力。

向人类进化取经:情绪与价值函数的本质


如果单纯的数据堆叠不是答案,那么智能的“圣杯”究竟在哪里?Ilya 将目光投向了生物进化。

人类之所以能以极高的效率学习(例如青少年仅需十几个小时就能学会开车),是因为我们拥有进化赋予的强大“先验知识”和“价值函数”。“进化给了我们尽可能少量的、但最有效的信息。” Ilya 指出,人类的情绪系统本质上就是一个高效的价值函数。

他引用了一个神经科学案例:一个失去情绪处理能力的脑损伤患者,虽然智商正常、能言善辩,却无法在生活中做出最简单的决定(如穿哪双袜子)。这揭示了一个深刻的道理:“情绪并非理性的对立面,而是智能高效运作的基石。”

对于 AI 而言,未来的方向在于构建类似的机制——不仅是预测下一个 token,而是能够像人类一样,在行动之前就能通过内部的“价值函数”预判路径的优劣。“你不需要下完一整盘国际象棋才知道自己丢了一个子是错误的。价值函数能让你在中间过程就获得信号,这才是高效学习的关键。”

拒绝商业“老鼠赛跑”,直面超级智能

在 OpenAI 和 Anthropic 等公司争相发布产品、通过逐步迭代来测试安全性的当下,Ilya 的 SSI 选择了截然不同的道路:隐身。

“这就像一场‘老鼠赛跑’,激烈的市场竞争迫使你做出艰难的权衡。” Ilya 直言,为了维持产品的市场地位,公司往往需要在研究资源和工程落地之间不断妥协。SSI 筹集了数十亿美元,却不打算发布任何中间产品,而是将所有算力集中于单一目标:直接攻克安全超级智能(Safe Superintelligence)。

这种“憋大招”的策略在业内充满争议,但 Ilya 认为这是必要的。他不仅关注智能的构建,更关注智能的“对齐”。他提出了一种极具人文关怀的对齐思路:“与其构建一个只听从人类指令的 AI,不如构建一个能够‘关怀有感知生命’(Care for sentient life)的 AI。”

他认为,因为 AI 本身最终也会成为一种有感知的存在,这种基于“同理心”的对齐可能比僵硬的规则更具鲁棒性。

机器人+AI:人类社会未来的方向

对于未来,Ilya 的预测既令人兴奋又充满不确定性。他认为,一旦 AI 突破了持续学习的瓶颈,经济将迎来爆发式增长。未来的 AI 市场不会被单一的巨头垄断,而是会像生态系统一样高度分化。

“竞争喜欢专业化。” 就像生物进化一样,我们将看到无数占据不同生态位的 AI 公司:有的专精于法律诉讼,有的擅长复杂工程。而人类的角色,可能会通过某种形式的“神经连接”与 AI 实现部分融合,以在超级智能的时代保持平衡。

在访谈的最后,Ilya 分享了他作为顶尖科学家的核心哲学——“研究的品味”(Research Taste)。对他而言,伟大的研究往往源于对大脑机制的正确直觉,以及对美感的极致追求。

“丑陋没有立足之地。通过观察大脑,寻找那些简洁、优雅、美的解释。当实验数据与你的直觉冲突时,这种基于美的信念将支撑你穿越迷雾,找到真理。”

天空之城全文整理 开场: 现实与抽象- AI 发展的感知

Ilya: 你知道什么很疯狂吗?嗯哼。但这一切都是真实的。

Dwarkesh: 什么意思?

Ilya: 你不这么认为吗?

Dwarkesh: 什么意思?

Ilya: 就像所有这些人工智能的东西和所有这些湾区的事情。它们正在发生。这不是直接来自科幻小说吗?

Dwarkesh: 是的。另一件疯狂的事情是,这种缓慢的起飞感觉多么正常。比如说,我们要在人工智能上投入GDP的1%,我觉得这本应是个更大的事件,你懂吗?但现在感觉就是……

Ilya: 事实证明,我们很快就习惯了事物,是的。是的。但它也有点像是抽象的。比如,它意味着什么?它意味着你在新闻中看到了它。是的。某某公司宣布了某某金额。

Dwarkesh: 对。这就是你所看到的一切。

Ilya: 对。到目前为止,这并没有以任何其他方式被感受到。

Dwarkesh: 是的。我们现在真的要开始吗?我认为这是一个有趣的讨论。当然。

Ilya: 我认为关于“从普通人的角度来看,没什么太大的不同”这一点,即使到了奇点,仍然会是成立的。

Dwarkesh: 不,我不这么认为。好的,有意思。

Ilya: 所以我所说的“感觉没有变化”是指,好的,比如某某公司宣布了一笔难以理解的巨额投资。我不认为有人知道该如何处理这笔钱。但我认为人工智能的影响将会被感受到。人工智能将渗透到整个经济体系中。这背后存在着非常强大的经济驱动力。而且我认为这种影响会感受到非常强烈。

Dwarkesh: 你预计这种影响何时会到来?我认为这些模型的表现比它们的经济影响所暗示的要智能。

评估表现与实际经济影响的脱节

Ilya: 这是目前模型中非常令人困惑的一点。如何调和它们在评估(e-vals)中表现如此出色的事实。你看看这些评估,你会觉得,那些评估相当难。对。它们的表现如此出色,但经济影响似乎远远落后。感觉很难理解模型一方面能做这些惊人的事情,而另一方面,在某种情况下会重复自己两次,一个例子是,比如你使用 Vibe 编码做某事,然后你去某个地方,然后遇到了一个错误(bug)。然后你告诉模型,请修复这个错误好吗?是的。模型说,我的天,你说得太对了,我有一个错误。让我去修复它。然后它又会引入第二个错误。是的。然后你告诉它,你有了这个新的,第二个错误。对。然后它告诉你,我的天哪,我怎么会犯这样的错误?你又说对了。然后它又回到了第一个错误。是的。你可以在这两者之间交替。是的。然后你就想,这怎么可能呢?是的。我不确定。但这确实暗示着,有些奇怪的事情正在发生。

Ilya: 我有两种可能的解释。所以这里,更有点异想天开的解释是,也许强化学习(REL)训练使得模型变得有点过于一根筋和目光狭隘,有点过于,我不知道,缺乏觉察,尽管它在其他方面也让它们有所觉察。正是由于这一点,他们无法完成基本的事情。但还有另一种解释,那就是在人们进行预训练的时候,训练数据的问题之所以得到解决,是因为答案就是“所有数据”。当你进行预训练时,你需要所有的数据。所以你不需要去想,是使用这些数据还是使用那些数据。但是当人们进行强化学习(RL)训练时,他们确实需要思考。他们会说,好的,我们希望针对这个任务进行这种强化学习训练,针对那个任务进行那种强化学习训练。

Ilya: 据我所知,所有公司都有专门的团队来制作新的强化学习环境,并将其添加到训练组合中。然后问题就来了,那么,这些环境是什么呢?有太多的自由度了。你可以产生数量极其庞大的强化学习环境。你可以做的一件事,我认为这是无意中发生的事情,就是人们从评估中汲取灵感。你说,嘿,我希望我们的模型在发布时表现出色。我希望评估结果看起来很棒。有什么强化学习训练可以帮助完成这项任务呢,我认为事情确实会发生,而且我认为这可以解释很多正在发生的事情。如果你将此与模型泛化能力不足结合起来,就有可能解释我们所看到的很多现象,即评估性能与实际现实世界性能之间的脱节,而我们今天甚至不完全理解“现实世界性能”的确切含义。

Dwarkesh: 我喜欢这个观点,即真正的奖励作弊是那些过于关注评估的人类研究人员。我认为有两种方式来理解或尝试思考你刚刚指出的内容。一种是看,如果仅仅是通过成为超人般的编码竞赛选手,模型并不会自动变得更有品味,并对如何改进你的代码库做出更好的判断。那么,你应该扩展环境套件,以便你不仅仅是在编码竞赛中测试其最佳性能。它还应该能够为X事物、Y事物或Z事物做出最合适的应用。另外一个,也许你暗示的是,为什么首先成为超人的编程竞赛选手并不能让你成为一个更有品味的程序员,或者更普遍地来说。也许应该做的事情不是不断增加环境的数量和环境的多样性,而是要找到一种方法,让你能从一个环境中学习,并提高你在其他事物上的表现。

预训练与强化学习:竞争性程序员的类比

Ilya: 所以我有一个可能有帮助的人类类比。既然你提到了竞争性编程,我们就以竞争性编程为例。假设你有两个学生。其中一个决定他们想成为最优秀的竞争性程序员,所以他们将在这个领域练习10000小时,解决所有问题,记住所有证明技巧,并非常非常,非常熟练地快速正确地实现所有算法,通过这样做,他们成为了最优秀的学生之一。学生二认为,竞争性编程很酷,也许他们练习了100小时,比前者少得多,而且他们也做得非常好。你认为哪一个在他们后来的职业生涯中会做得更好?

Ilya: 第二个。我认为这基本上就是正在发生的事情。这些模型更像是第一个学生,甚至更进一步,因为我们接着说,那么模型应该擅长竞争性编程,所以让我们获取有史以来每一个竞争性编程问题,然后我们再做一些数据增强。这样我们就有了更多的竞争性编程问题,并且我们在此基础上进行训练。这样一来,你就拥有了这个很棒的竞争性程序员。并且用这个类比,我认为会更直观。我认为用这个类比会更直观,那就是,如果它训练得如此充分,就像所有不同的算法和所有不同的证明技术都触手可及一样。而且更直观的是,有了这种程度的准备,它不一定能泛化到其他事物上。

Dwarkesh: 那么,在进行那 100 小时微调之前,第二个学生在做什么的类比又是什么呢?

Ilya: 我认为就像他们拥有了它一样。我认为是那种“特质因素”。是的。就像我知道,比如当我还是本科生的时候,我记得有一个学生像这样和我一起学习。所以我知道它的存在。

Dwarkesh: 我认为将它与预训练所做的任何事情区分开来很有趣。所以理解你刚才说的关于我们不必在预训练中选择数据的一种方式是说,实际上,它与一万小时的练习没有太大区别。只是你免费获得了那上万小时的练习,因为它已经存在于预训练分布中的某个地方。但这就像你可能在暗示,实际上预训练的泛化能力并没有那么多。只是免费训练中有如此多的数据。

Ilya: 但这不像它在泛化方面一定比强化学习(RL)更好。预训练的主要优势在于 A,即数据量非常大。是的。B 是你不用费心去思考应该把什么数据。放入预训练中,而且它是一种非常自然的数据,它包含了人们所做的很多事情,人们的想法以及很多特征,就像整个世界被人们投射到文本上一样,而预训练试图利用海量数据来捕捉这一点。预训练非常难以推理,因为很难理解模型依赖预训练数据的方式。每当模型犯错时,是否可能是因为某些东西碰巧在预训练数据中支持不足?预训练的支持可能是一个比较宽泛的说法。我不知道我是否能就此增加更多有用的见解,但我认为人类中没有与预训练相对应的类比。

人类进化与 AI 预训练的映射

Dwarkesh: 这里有一些人们提出的关于人类类比于预训练的类比,我很想听听你对它们可能出错的原因的看法。一种是将一个人生命中的前18年、15年或13年视为一个阶段,那时他们不一定具有经济生产力,但他们正在做一些让他们更好地理解世界的事情,等等。另一种是将进化视为完成某种服务。进行了30亿年,然后产生了一个人类生命实例。那么我很好奇你是否认为这些类比中任何一个与预训练真正相似,或者如果你不考虑预训练,你会如何看待至少人类一生的学习是怎样的?

Ilya: 我认为这两者与预训练都有一些相似之处,而且预训练试图扮演这两者的角色。但也我认为存在一些巨大的差异。预训练数据的量非常、非常惊人。是的。而且不知何故,一个人类个体,即使在 15 年后,只利用了那部分预训练数据的一小部分,他们所了解的也要少得多。但无论他们知道什么,他们知道得都要深得多,不知怎的。而且,比如在这个年龄,他们不会犯像大型语言模型(RIAs)那样的错误。

Ilya: 是的。还有另一件事,你可能会问,这会不会是某种类似进化的东西?答案是也许,但在本例中,我认为进化可能确实具有优势。比如,我记得读过一个案例,一些,这是神经科学家做的一件事,或者更确切地说,是神经科学家了解大脑的一种方式,就是研究大脑不同部位受损的人。有些人表现出你可以想象到的最奇怪的症状。实际上非常、非常有趣。我记得一个与此相关的案例。我读到过一个人,他有某种脑损伤,我想是一次中风或事故,导致他的情绪处理功能丧失了。所以他不再有任何情绪了。结果是,他仍然非常健谈,能够解决一些小难题,而且在考试中他似乎表现得很好。但他感受不到任何情绪,他不会感到悲伤,不会感到愤怒,也不会感到兴奋,他不知怎么地在做任何决定时都变得非常糟糕,他需要花上几个小时来决定穿哪双袜子,而且他会做出非常糟糕的财务决定,这非常说明了我们内置的情绪在使我们成为一个可行的主体方面究竟扮演着什么样的角色。我想,联系到你关于预训练的问题,这就像是,也许如果你在预训练中足够擅长获取所有信息,你也可以获得那种能力。但这类事情似乎,嗯,它可能从预训练中获得,也可能无法获得。

价值函数与情绪的作用

Dwarkesh: 那是什么?显然不只是直接的情绪。它看起来像是一种近似于价值函数的东西,它告诉你应该做出什么样的决定,比如任何决定的最终回报应该是什么。你不认为这会不经意地来源于,我认为有可能会。我只是说它不是一个,不是百分之百明确的。是的。但那又是什么呢?比如,你如何看待情绪?情绪在机器学习中有什么类比吗?

Ilya: 它应该是一种价值函数之类的东西。是的。但我认为没有一个很好的机器学习类比,因为目前价值函数在人们所做的事情中并不扮演非常重要的角色。

Dwarkesh: 如果你想这么做,也许值得为听众定义一下什么是价值函数。

Ilya: 当然,我非常乐意这样做,那么当人们进行强化学习,目前进行强化学习的方式是怎样的呢?人们如何训练那些智能体?所以你有一个神经网络,你给它一个问题。然后你告诉模型,去解决它。模型可能会采取数千次、数十万次的行动。或者思考或别的东西,然后它产生一个解决方案,该解决方案会被评分。然后该分数被用来为你的轨迹中的每一个动作提供一个训练信号。这意味着如果你做的事情耗时很长,如果你在训练一个需要很长时间才能解决的任务,你将完全学不到任何东西,直到你提出了拟议的解决方案。强化学习就是这样做的。天真地做。01、R1 表观上就是这样做的。

Ilya: 价值函数表达的意思是,看,也许我有时可以,不总是,告诉你你做得好还是不好。价值函数的概念在某些领域比在其他领域更有用。例如,当你玩国际象棋时丢了一个棋子,我搞砸了,你不需要下完整个对局就知道我刚才做的很糟糕,因此在此之前所做的一切也都是糟糕的。所以价值函数可以让你跳过直到最后才计算权重。比如我们假设你开始追求某种,好的,我们假设你正在做某种数学或编程方面的事情。并且你正在尝试探索一个特定的解决方案方向。在经过,比如说,一千步思考后,你得出结论,这个方向没有前途。一旦你得出这个结论,你就可以在决定沿着这条路走的一千步之前就获得了奖励信号。你会说,下次,在类似的情况下,我不应该再走这条路了,这比你实际提出一个拟议的解决方案要早得多。这在深度强化学习(Deep Sikar 1)论文中提到过,即轨迹空间非常广阔,因此很难学习从中间轨迹和价值到编码的映射,而且假设你有了错误的观念,然后你会回去,然后你会改变一些东西,这听起来像是对深度学习缺乏信心,当然这可能很困难,但没有什么事是深度学习做不到的。所以我的预期是,价值函数应该是有用的,而且我完全期待它们在未来会被使用,如果不是现在的话。

Ilya: 我刚才提到的那个情感中枢受损的人的情况,更多的是想表明,人类的价值函数可能以某种重要的、由进化固化的方式受到情绪的调节。也许这对人们在世界上有效运作是很重要的。

Dwarkesh: 这正是我本来计划要问你的事情。情绪的价值功能中有一个非常有趣的点,那就是,尽管它们相当简单易懂,却能产生如此大的效用,这一点令人印象深刻。

Ilya: 所以我有两个回应。我确实同意,与同样的事情相比。我们所学和我们所谈论的这类事情,我们所谈论的情绪是相对简单的。它们可能简单到也许可以用人类可以理解的方式将它们描绘出来。我认为那样做会很酷。尽管从效用的角度来看,我认为存在一个权衡,存在这种复杂性、鲁棒性之间的权衡。复杂的事物可以非常有用,但在非常广泛的情况下,简单的事物非常有用。所以我认为理解我们所看到的一种方式是,我们拥有的这些情绪,它们基本上主要源于我们的哺乳动物祖先,然后在我们成为人科动物时进行了一点微调。尽管如此,我们确实拥有相当数量的社会性情绪,这是哺乳动物可能缺乏的。但它们不是很复杂,而且因为它们不复杂,所以在与我们实际生活在的这个非常不同的世界中,它们的服务效果不佳,它们也会犯错误。例如,我们的情绪,嗯,我不知道饥饿算不算情绪,这一点有争议,但我认为例如我们直觉上的饥饿感在这个食物充裕的世界里并不能正确地指导我们。

从“扩展时代”回归“研究时代”

Ilya: 人们一直在谈论扩展数据、扩展参数、扩展算力。

Dwarkesh: 是否有更通用的思考扩展的方式?其他的扩展维度是什么?

Ilya: 所以,这是个观点。这里有一个我认为可能是正确的观点。机器学习过去的工作方式是人们只是用各种东西来思考,并试图获得有趣的结果。这就是过去发生的事情。然后,规模化洞察出现了,规模化定律、GPT3,突然之间,所有人都意识到我们应该进行规模化。这就是,这就是语言影响思维的一个例子。规模化只是一个词,但它是一个如此强大的词,因为它告诉人们该怎么做,他们说好的,让我们尝试扩大规模,所以你说好的,那我们在规模化什么呢?预训练是用来规模化的一个东西,它是一种特定的规模化方法。预训练的重大突破是认识到这种方法是有效的,所以你说嘿,如果你将一些计算力与一些数据混合到一个特定大小的神经网络中,你就会得到结果,而且如果你只是扩大这种方法的规模,结果会更好。这也很好,大公司喜欢这一点,因为它提供了一种风险非常低的资源投入方式。

Ilya: 投入资源进行研究要困难得多。比较一下。如果你进行研究,你需要让研究人员去研究并想出一些东西,而获取更多数据、获取更多计算力,你知道你会从预训练中得到一些成果。事实上,根据各种情况来看,一些人在推特上说,可能看起来像Gemini找到了一种从预训练中获取更多成果的方法。然而,在某个时间点,预训练的数据将会用尽。数据非常明确是有限的。那么接下来怎么办呢?要么你进行某种升级版的预训练,采用与之前不同的配方,要么你在做强化学习(R.R.L.),或者可能还有其他方法。但现在算力很大,计算机现在非常庞大。从某种意义上说,我们回到了研究的时代。

Ilya: 所以也许换一种方式来表达。从2012年到2020年,这是研究的时代。现在,从2020年到2025年,是规模扩展的时代。或者可能是多或少。让我们为那些年份加上误差线,因为人们说这很惊人,你必须扩大规模,继续扩大规模,那个词就是“扩大规模”,但现在规模已经非常大了,比如,人们真的相信,它这么大,但如果你有大 100 倍的一切,一切都会截然不同,肯定会有不同,但相信只要把规模扩大 100 倍,一切都会改变吗?我不认为那是真的,所以又回到了研究时代,只是有了大型计算机。这是一个非常有趣的说法。

Dwarkesh: 但让我问你刚才提出的问题。我们在扩展什么,拥有一个“配方”意味着什么?因为我猜我没有意识到一个非常清晰的关系,它几乎看起来像一个物理定律,这种关系在预训练中存在,即数据或计算参数与损失之间存在幂律关系。我们应该寻求什么样的关系,我们应该如何思考这个新“配方”可能是什么样子。

Ilya: 所以我们已经目睹了从一种类型的扩展到另一种类型的扩展的转变,从预训练到强化学习(R.L.)。现在人们正在扩展强化学习。现在根据人们在推特上所说的,他们在这个阶段在强化学习上花费的计算量比在预训练上花费的还要多,因为强化学习实际上会消耗相当多的计算量。你要进行非常非常长的回放。所以要产生那些回放需要大量的计算。然后你会得到相对较少的学习拉动部署。所以你真的可以花费大量的计算资源。我可以想象,我不会在这个,在这个,这更像是,我甚至不会称之为一种规模。扩展。我会说,嘿,你到底在做什么?你所做的事情是你目前能做的最有效率的事情吗?是的。你是否能找到一种更有效率的方式来利用你的计算资源做这件事?早些时候的价值函数业务,也许一旦人们擅长价值函数,他们就会更有效地利用他们的资源。如果你找到一种全新的模型训练方式,你可以问,这是扩展,还是仅仅是对你资源的利用?我认为这变得有点模糊不清。在某种意义上,当人们处于研究时代时,那时就像人们说的,嘿,我们来试试这个、那个、再试试那个、再那个。噢,看,有些有趣的事情正在发生。我认为将会有一种回归。

Dwarkesh: 所以,如果我们回到了研究时代,退一步讲,我们需要最关注食谱中的哪个部分?当你说价值函数时,人们已经在尝试当前的食谱,但随后让大型语言模型作为裁判等等。你可以说那是一个价值函数,但这听起来你心里有更根本的东西。我们是否需要回到甚至完全重新思考预训练,而不仅仅是在该过程的末尾增加更多步骤?

Ilya: 是的。所以关于价值函数的讨论,我认为很有趣。我想强调的是,我认为价值函数之类的东西将使强化学习(RL)更加高效。我认为这会产生影响。但我认为,任何你可以用价值函数做的事情,你也可以在没有它的情况下做,只是速度更慢。

样本效率与人类学习的奥秘

Dwarkesh: 我认为最根本的一点是,这些模型在泛化能力上似乎比人类差得惊人,这非常明显,这似乎是一个非常根本性的问题。好的,所以这就是泛化的关键所在,这里有两个子问题:一个关于样本效率,即为什么这些模型需要比人类多这么多数据才能学习?第二个问题是,即使撇开所需数据量不谈,为什么教给模型我们想要的东西比教给人类要困难得多?也就是说,对于人类,我们不一定需要一个可验证的奖励才能做到,你现在可能正在指导许多研究人员,你和他们交谈,向他们展示你的代码,向他们展示你的思维方式。从这些中学到他们的思维方式以及他们应该如何进行研究。你不必为他们设置一个可验证的奖励。这好的,这是你课程的下一部分。现在这是你课程的下一部分。而且,这次训练不稳定,而且没有这种琐碎的定制化过程。所以也许这两个问题实际上以某种方式相关联。但我对探索第二点很感兴趣,这更像是持续学习,而第一点感觉就像是样本效率。

Ilya: 所以你可以真正思考一下,关于人类样本效率需要考虑的一个可能解释是进化。而进化给了我们尽可能少量的最有效信息。对于视觉、听觉和运动等事物,我认为进化实际上给了我们很多,这一点有很强的论据支持。举个例子,人类的灵巧度远远超过,如果对机器人进行大量的模拟训练,它们也可以变得灵巧。但是,让机器人在现实世界中像人一样快速学习一项新技能,似乎还遥不可及。在这里你可以说,比如运动能力,我们所有的祖先都需要出色的运动能力,松鼠,比如,所以运动能力可能意味着我们拥有一些难以置信的先验知识。

Ilya: 视觉方面也可以做同样的论证,我相信颜拉·汗(Yanla Khan)曾指出,比如儿童在练习10小时后16小时内学会开车,这很真实,但我的视觉非常好,至少对我而言,当我回忆起自己五岁的时候,我那时对汽车非常着迷,我确信我五岁时对汽车的识别能力已经足够用于自动驾驶了,五岁时你看不到太多数据,你大部分时间都在父母家里度过,所以你的数据多样性非常低。但你可能会说,也许这也是进化。但语言和数学编码,可能不是。

Dwarkesh: 它们仍然似乎优于模型。模型在语言和数学编码方面显然优于普通人类,但在学习方面它们是否也优于普通人类呢?

Ilya: 绝对是。我想说的是,语言、数学编码,尤其是数学编码表明,使人们擅长学习的任何东西可能不是一个复杂的先验知识,而更像是一些基本的东西。

Dwarkesh: 等等,我不确定我是否理解了。为什么会是这样呢?

Ilya: 所以考虑一项人们表现出某种高度可靠性的技能,或者,如果这项技能对我们的祖先在数百万年、数亿年里非常有用的话。你可以说,你可以争辩说,也许人类擅长它是因为进化,因为我们有一个内嵌在某种非常微妙的方式中的进化先验知识,使得我们如此擅长它。但是,如果人们在一个直到最近才存在的领域表现出很高的能力、可靠性、鲁棒性、学习能力,那么这更说明人类可能只是拥有更好的机器学习能力,就这样。

Dwarkesh: 嗯哼。但然后我们应该如何思考那到底是什么呢?这是一个……的问题吗?它的机器学习类比是什么……关于它,有几件有趣的事情。它需要的样本更少。它更无监督。你不需要设定一个非常,就像一个孩子学习驾驶汽车,孩子,孩子们不是在学习驾驶汽车,一个青少年学习如何驾驶汽车,就像没有完全获得一些预先构建的可验证的奖励在那里。它来源于他们与机器和环境的互动,然而它却需要少得多的样本。它看起来更无监督。

Ilya: 它看起来更稳健,人们的稳健性真的令人震惊。是的。所以它是这样的吗?你是否有一种统一的方式来思考为什么所有这些事情同时发生?

Dwarkesh: 什么样的机器学习类比可以实现这样的事情?

Ilya: 所以,所以这就是你一直在问的其中一件事,就是青少年驾驶员如何在没有外部老师的情况下进行自我修正并从他们的经验中学习?答案是,嗯,他们有自己的价值函数,他们有一种普遍的感知,顺便说一句,这种感知在人类身上也是极其稳健的。比如,无论是什么,人类的价值函数,无论人类的价值函数是什么,除了少数与成瘾相关的例外,它实际上非常、非常稳健。所以对于像一个正在学开车的青少年来说,他们开始开车,他们立刻就有了一种关于自己驾驶情况的感觉,他们有多么不自信,然后他们看到了,好的,然后,当然,任何青少年的学习速度都非常快,十个小时后,你就可以上路了。

Dwarkesh: 是的。看来人类确实有某种解决方案,但我好奇的是,他们是如何做到的?还有,我们如何需要重新概念化我们训练模型的方式,才能使这样的事情成为可能?

Ilya: 这是一个很好的问题。这是一个我有很多看法的领域。但不幸的是,我们生活在一个并非所有机器学习思想都能自由讨论的世界里,而这就是其中之一。所有机器学习想法都被自由讨论,而这是一个。所以可能有一种方法可以做到。我认为这是可以做到的。人们是那种状态的事实,我认为这证明了它是可以做到的。不过可能还存在另一个阻碍因素,那就是人类神经元实际上的计算量可能比我们想象的要大。如果情况属实,并且如果这起着重要的作用,那么事情可能会更困难。但无论如何,我确实认为这指向了某种机器学习原理的存在,我对这些原理有自己的看法,但不幸的是,环境使我难以详细讨论。

Dwarkesh: 没有人听这个播客,伊利亚。是的。所以我必须说,为伊利亚做准备相当艰难,因为我和其他任何人都不知道他正在研究什么,也不知道SSI试图做什么。我没有任何依据来提出我的问题。说实话,我唯一能依靠的就是从第一性原理出发思考AGI的瓶颈是什么,因为很明显伊利亚在某种程度上正在研究这些瓶颈。这个问题的一部分涉及到思考强化学习(RL)的扩展性,因为每个人都在问 RL 的泛化能力如何,以及我们如何能让它泛化得更好。

强化学习的扩展性与 Gemini 的辅助

Dwarkesh: 在此过程中,我阅读了一篇最近发表的关于 RL 扩展性的论文,它显示实际上 RL 的学习覆盖看起来像一个 S 形曲线。我觉得这非常奇怪。为什么会是一个 S 形曲线,即模型长时间内学习很少,然后迅速学习很多,最后趋于渐近线?这与你在预训练中看到的幂律非常不同,后者是模型在最开始时学习很多,然后随着时间的推移学习得越来越少。这实际上让我想起了一张笔记,那是我与一位研究人员朋友交谈后写下的,他指出,为了找到一个正确的答案所需的样本数量,会随着你当前的概率分布与目标概率分布的差异程度呈指数级增长。我在思考这两个想法是如何关联的。我有一个模糊的想法,它们应该是有联系的,但我真的不知道如何联系。我没有数学背景,所以我无法真正形式化它。但我很好奇 Gemini 3 能否在这方面帮到我。

Dwarkesh: 于是我拍下了我的笔记本的照片,拿出了那张纸,将两者都置于 Gemini 3 的上下文中,并要求它找出其中的联系。它思考了一会儿。然后它意识到,在强化学习中,从一个“是”或“否”的结果中获得信息的正确建模方式是随机二元变量的熵。它绘制了一张图表,显示了在强化学习与监督学习中,随着通过率的增加,每次采样的增益比特数是如何变化的。就在我看到 Gemini 3 制作的图表时,立刻有很多事情对我来说变得有意义了。然后我想看看这个理论是否有任何经验基础。所以我让 Gemini 编写代码进行实验,以证明损失的改善是否会随着通过率以这种方式扩展。我只是拿了 Gemini 输出的代码,将其复制粘贴到一个 Google Colab 笔记本中,然后我就能够在没有一个错误的情况下运行这个玩具机器学习实验并可视化其结果。

Dwarkesh: 这很有趣,因为结果看起来相似,但与我们预期的不完全相同。于是我下载了这张图表,将其输入给 Gemini,并问它,这里发生了什么?它提出了一个我认为实际上是正确的假设,即我们通过固定的学习率限制了监督学习在开始阶段可以提升的上限。事实上,我们应该随着时间的推移降低学习率。这实际上让我们直观地理解了为什么在实践中,我们有随时间降低学习率的学习率调度器。我完成了从提出这个模糊的初始问题,到建立理论理解,再到运行一些玩具机器学习实验的整个流程,所有这些都是使用 Gemini III 完成的。这感觉是第一个能够建立我预料之外的新联系的模型。实际上,现在它已经成为我想就一个问题集思广益新思路时的默认去处。如果你想阅读更多关于强化学习(RL)扩展的内容,可以查看我与 Gemini 3 稍微合作撰写的一篇博文。如果你想亲自了解 Gemini 3,请访问 gemini。点 google。

研究所需的算力与 SSI 的策略

Dwarkesh: 我很好奇,你说我们回到了一个研究时代,您经历了 2012 年到 2020 年。那么,如果我们回到研究时代,现在的氛围会是怎样的呢?例如,即使在 AlexNet 之后,用于运行实验的计算量仍在增加,前沿系统的规模也在不断扩大,你现在是否认为这个研究时代仍然需要大量的计算资源?你是否认为需要回到档案库中阅读旧论文?在谷歌、OpenAI 和斯坦福等地方,当时的研究氛围是怎样的?社区中我们应该期待出现什么样的现象?

Ilya: 规模化时代的一个后果是,规模化吸走了房间里的所有空气。是的。正因为规模化吸走了房间里的所有空气,每个人都开始做同样的事情。我们到了这样一个地步:在这个世界上,公司的数量远超想法的数量。事实上,关于这一点,硅谷有一句老话,说想法是廉价的,执行才是最重要的。人们经常这样说。这其中有道理。但后来我在推特上看到有人说,如果想法如此廉价,为什么没有人有新想法呢?我认为这也是真的。我想,如果你从瓶颈的角度来考虑研究进展,会存在几个瓶颈。如果你回溯,其中一个瓶颈是想法,另一个是实现这些想法的能力,这可能涉及计算能力,但也涉及工程技术。所以如果你回到上世纪90年代,比如说,当时有一些人有相当不错的想法。如果他们拥有更大的计算机,也许他们就能证明自己的想法是可行的。但他们做不到。所以他们只能做一个非常非常小的演示,没能说服任何人。因此,瓶颈在于计算能力。

Ilya: 然后在规模扩展的时代,计算机大幅增加了。当然,这里有一个关于需要多少计算能力的问题,但计算能力是巨大的。所以计算量足够大,以至于用更多的计算量来证明某个想法是否必要,这一点并不明显。比如,我给你举个类比。Alexnet 是在两块 GPU 上构建的。那是它使用的总计算量。Transformer 是在八到六十四块 GPU 上构建的。在 2017 年,没有单个 Transformer 论文实验使用的 GPU 超过 64 块,这相当于今天的多少呢?大约两块 GPU 吧?所以 Resnet,对吧,很多,比如你可以说,像 01 时代的推理并不是世界上计算量最大的东西。所以对于研究来说,肯定需要一定量的计算资源,但远非绝对必要使用有史以来最大的计算量来进行研究。你可能会争辩说,而且我认为这是真的,如果你想构建绝对最好的系统,如果你想构建绝对最好的系统,那么拥有更多的计算资源会有帮助。特别是当所有人都处于相同的范式下时,计算资源就成为主要的区别因素之一。

Dwarkesh: 我想虽然这些想法是可能的,但我问你历史是因为你当时真的在场。我不确定到底发生了什么。但听起来,使用最少量的计算资源就有可能发展出这些想法。但事实并非如此,Transformer 模型并未立即成名。它成为了每个人开始采用、并在其基础上进行实验和构建的东西,因为其在越来越高的计算量级别上得到了验证。是的。如果在 SSI 你有 50 个不同的想法,在没有其他前沿实验室那样的计算资源的情况下,你如何知道哪个是下一个 Transformer,哪个是,脆弱的呢?

Ilya: 我可以对此发表评论,简短的回答是,你提到了 SSI。具体来说,对于我们来说,SSI 用于研究的计算量实际上并不算少。我想解释一下原因,比如一个简单的数学可以解释为什么我们拥有的计算量实际上比人们想象的更适合研究。请解释一下。SSI 已经筹集了 30 亿美元,这本身不算少,但从绝对意义上讲已经很多了,但你可能会说,看看那些筹集了更多资金的其他公司。但是他们的大部分,他们的大部分计算资源都用于推理。比如这些大笔的资金,这些大笔的贷款,是专门用于推理的。这是第一点。第二点是,如果你想要一个可以进行推理的产品,你需要一支庞大的工程师、销售人员队伍,大量的研究需要投入到生产各种与产品相关的功能。所以当你审视真正剩下的研究内容时,差距就小得多了。那么,另一件事是,如果你在做一些不同的事情,你真的需要绝对最大的规模才能证明它吗?我认为这完全不是真的。我认为在我们的案例中,我们拥有足够的算力来证明,以让我们自己和任何其他人相信我们所做的是正确的。

Dwarkesh: 有公开的估算,像Open AI这样的公司每年在实验上花费大约五六十亿美元。嗯哼。这与他们花费在推理等方面的时间和金钱是分开的。所以看起来他们每年花在运行研究实验上的钱,比你们公司的总资金还要多。我认为这是一个关于你如何使用它的问题。

Ilya: 这是一个关于你如何利用它的问题。比如他们拥有,比如,我认为在他们的情况下,在其他人的情况下,我认为对训练计算的需求要大得多。有更多不同的工作流。有不同的模态。就是有更多东西。因此它变得碎片化了。SSI将如何盈利?我对这个问题的回答是,我们现在只是专注于研究,然后那个问题的答案就会自己显现出来。我认为会有很多可能的答案。

直通超级智能:SSI 的路径选择

Ilya: SSI的计划仍然是直接实现超级智能吗?也许我认为这有其价值,我认为它有很多价值,因为我认为不受日常市场竞争的影响是非常好的,但我认为有两个原因可能会导致我们改变计划,一个是从实际角度出发,如果时间线变得很长,这确实有可能发生;第二个是我认为最强大的人工智能能够走出去并影响世界具有很大的价值。我认为这是一件非常有价值的事情。

Dwarkesh: 那么,你默认的计划是直接追求超级智能的原因是什么?因为听起来,OpenAI、Anthropic、所有这些其他公司的明确想法是,看,我们拥有越来越弱的智能,公众可以习惯并为此做好准备。为什么直接构建一个超级智能可能更好呢?

Ilya: 那么,我将陈述支持和反对的理由。支持的理由是,人们在市场上遇到的一个挑战是他们必须参与到这场“老鼠赛跑”中。而这场“老鼠赛跑”非常艰难,因为它会让你面临必须做出的艰难的权衡。而且,说我们能够隔绝所有这些干扰,只专注于研究,等到准备好了才出现,而不是提前出现,这确实很不错。但反驳的观点也同样有效。而这些是相互对立的力量。反驳的观点是,嘿,让世界看到强大的人工智能是有益的。让世界看到强大的人工智能是有益的,因为那是你能够传达它的唯一方式。

Dwarkesh: 嗯,我猜不仅是传达这个想法,而是传达人工智能本身。

Ilya: 不是那个想法,是传达人工智能本身。你说的传达人工智能是什么意思?好的,所以我们假设你读了一篇关于人工智能的文章。是的。这篇文章说人工智能将是这个,人工智能将是它将是这个。你读了它,然后你说,这是一篇有趣的文章。对。现在假设你看到人工智能正在做这个,人工智能正在做这是无法相比的。基本上,我认为人工智能存在于公众视野中会带来巨大的好处。这将是我们不能完全直截了当的原因。

Dwarkesh: 是的。我想甚至不是那样,但我确实认为那是其中一个重要部分。另一个重要因素是,我认为在人类工程学和研究的其他人文科学领域中,最终产物的安全性提高主要是通过思考如何使其安全,而不是思考为什么如今每英里的飞机失事率比几十年前要低得多。比几十年前要低得多。为什么如今在 Linux 中发现一个错误比几十年前要困难得多?我认为这主要是因为这些系统已经部署到全世界了。你注意到了故障。这些故障得到了修正,系统变得更加健壮。现在,我不确定人工智能和超人智能会有什么不同,特别是考虑到,我希望我们能讨论到这一点。似乎超级智能的危害不仅仅是存在一个恶意的“回形针最大化器”,而是这确实是一个非常强大的事物,我们甚至不知道如何概念化人们将如何与之互动,人们将用它来做什么,而逐步获取它似乎是分散其影响并帮助人们为之做好准备的更好方式。

Ilya: 嗯,我认为在这一点上,即使在直接部署的情况下,你仍然会采取渐进式发布。这是我所能想象到的。渐,或者说,渐进主义将是任何计划中固有的组成部分。只是一个关于你首先要推出什么的问题。这是第一点。第二点,我也认为,我相信你比其他人更倡导持续学习。而且我实际上认为这是一件重要且正确的事情。原因如下。这样,有一件事,我再给你举一个关于思维如何,语言如何影响思维的例子,在这种情况下,是两个词,两个塑造了每个人的思维的词,我坚持认为是第一个词“通用人工智能”(AGI),第二个词是“预训练”。让我解释一下,所以“通用人工智能”(AGI)这个词,这个术语为什么存在?这是一个非常特殊的术语,它为什么存在?它存在是有原因的。我认为“通用人工智能”(AGI)这个术语存在的原因,与其说是它像是一种对某种智能终极状态非常重要、必不可少的描述,不如说是对另一个已存在的术语的反应,那个术语是“狭隘人工智能”(Narrow AI)。如果你回顾游戏人工智能、国际象棋人工智能、电脑游戏人工智能的古老历史。每个人都会说,看看这个狭隘的智能。

Ilya: 当然,国际象棋人工智能可以击败卡斯帕罗夫,但它什么也做不了别的。它是如此狭隘,是人工窄智能。所以作为回应,作为对此的一种反应,有些人说,这不太好。它太狭隘了。我们需要的是通用人工智能。通用人工智能,一种可以做所有事情的人工智能。第二个并且这个术语获得了很大的关注,第二个获得很大关注的是预训练,特别是预训练的配方。我认为目前人们做强化学习(RL)的方式可能正在消除预训练的概念印记,但预训练具有这样的特性:你做更多的预训练,模型在几乎所有方面都会变得更好,大致均匀地提升。通用人工智能。预训练可以带来通用人工智能(AGI)。但是通用人工智能和预训练发生的事情是,在某种意义上,它们超出了目标。因为如果你思考通用人工智能这个术语,你会意识到,特别是在预训练的背景下,你会意识到人类并不是通用人工智能。因为人类,肯定有一个技能基础,但人类,人类缺乏大量的知识。相反,我们依赖持续学习。我们依赖持续学习。

Ilya: 所以,然后当你想到,好的,我们假设我们取得了成功,并产生了一种某种安全的超级智能。问题是,但你如何定义它?在持续学习的曲线上,它会在哪里?我会产生一个像一个非常渴望去做的超级聪明的15岁的人,然后你说,我打算,他们对什么都知之甚少。这个伟大的学生,非常热切。你去当一个程序员。你去当一个医生。去学习。所以你可以想象,部署本身将涉及某种学习的试错阶段。这是一个过程,而不是你扔出一个完成品。

Dwarkesh: 好的,我明白了。所以你的意思是。你指出的关于超级智能的东西,并不是一个知道如何在经济中完成每一项工作的、已完成心智,因为比如说,我认为定义通用人工智能(AGI)的最初论述是它可以做人类能做的每一项工作,而你提出的则是一个可以学会做任何单一工作的,每一个工作,这就是超级智能,但是一旦你有了学习算法,它就会以人类劳动力加入组织的方式部署到世界。算法,它就会以人类劳动力可能加入组织的方式部署到世界。似乎会发生这两件事之一,也许两者都不会发生。

持续学习模型与经济增长

Dwarkesh: 第一,这个超高效的学习算法变得超人,变得和你一样好,甚至在机器学习研究这项任务上变得更好。结果是,该算法本身变得越来越超人。第二种情况是,即使那样没有发生,如果你有一个单一的模型——这明确是你的设想——如果你有一个单一的模型,其部署在经济中、执行不同工作的实例,学习如何完成这些工作,在工作中持续学习,学习到任何人类可以学到的所有技能,但实际上同时学习所有这些技能,然后将这些学习到的东西融合起来,那么你基本上就拥有了一个在功能上变得超级智能的模型,即使没有任何软件层面的递归自我改进。因为你现在有一个模型可以完成经济中的每一项工作,而人类无法以同样的方式融合心智。那么你是否预期在广泛部署后会出现某种智能爆炸?

Ilya: 我认为很可能会出现快速的经济增长。我认为广泛部署,比如你可以提出两个相互冲突的论点。一是,你看,如果确实,一旦你达到了拥有一个可以快速学习做事的人工智能的点,并且你有很多这样的AI,那么除非有某种监管阻止,否则将有强大的动力将它们部署到经济中,顺便说一句,它们可能会有监管。但我认为在一段时间内出现非常快速的经济增长是很有可能的,这是由广泛部署带来的,另一个问题是它会有多快,所以我认为这很难知道,因为一方面你有这个非常高效的工人,另一方面世界非常庞大,有很多东西,而这些东西以不同的速度移动,但另一方面,现在AI可以,确切地说。所以,我认为非常快速的经济增长是可能的。我们将看到各种情况,比如不同国家有不同的规则,那些规则更友好的国家,经济增长会更快。很难预测。

Dwarkesh: 我们的一些听众喜欢阅读文字记录而不是收听节目。因此,我们投入了大量的精力,力求使转录文本读起来就像是独立的论述。问题在于,如果你只是使用语音转文本模型逐字转录对话,其中会充斥着各种不连贯和令人困惑的措辞。我们向Labelbox提到了这个问题,他们询问是否可以派驻人员。与他们在这方面合作,可能是我最乐意向人们推荐Label Box的原因。这不仅仅是,“嘿,告诉我们你需要什么样的数据,然后我们会去获取。”他们引导我们完成了整个流程,从帮助我们首先确定需要什么样的数据,到组建一支专家对齐师团队来生成这些数据。即使在我们收回所有数据之后,Labelbox仍然保持参与其中。他们帮助我们选择了合适的基座模型,并在模型的输出上设置了自动质量保证(AutoQA),以便我们进行调整和完善。现在,我们有了一个新的转录工具,可以用于我们今后的所有剧集。这只是Labelbox在理念层面接触客户,并在其整个旅程中与客户合作的一个例子。如果您想了解更多信息,或者想亲自试用转录工具,请访问 labelbox.com 斜杠 thwartcash。

Dwarkesh: 我认为这是一种非常危险的境地,你看,在极限情况下,我们知道这应该是可能的,因为如果你拥有一个在学习方面和人类一样好的东西,但它可以以人类无法合并的方式来合并其“大脑”,合并不同的实例。这似乎已经是一件在物理上应该可能实现的事情。人类是可能的。数字计算机是可能的。你只需要将这两者结合起来就能产生这个东西。而且这种东西似乎也非常……强大,经济增长是其中一种说法,我的意思是戴森·斯皮尔(Dyson Speer)带来了巨大的经济增长,但另一种说法是,你可能会有一个非常短的时间段,因为一个在职的人类,你雇佣人们六个月后,他们基本上就实现了净生产力,人类学习得非常快,所以这个东西正在变得越来越聪明,非常快。如何思考如何让它顺利发展,以及为什么 SSI 能够很好地做到这一点?或者 SSI 的计划是什么,基本上我就是想问这个。

AI 的感知能力与未来安全图景

Ilya: 是的。所以我的想法发生变化的一种方式是,我现在更重视人工智能的增量式和预先部署。人工智能一个非常困难的地方在于我们正在谈论。关于尚不存在的系统,并且很难想象它们。我认为正在发生的一件事是,在实践中,非常难以感受到通用人工智能(AGI)。非常难以感受到AGI。我们可以谈论它,但这就像谈论遥远的未来,就像想象一下,像是在谈论年老体衰时的感受,你可以进行对话,你可以试着去想象,但这只是很困难,然后你回到现实,情况并非如此,我认为围绕AGI及其未来能力的许多问题都源于这样一个事实:非常难以想象未来的AI将会是不同的,它将是强大的。事实上,整个问题,AI和AGAI的问题是什么?整个问题在于能力。整个问题在于能力。当能力非常强大时,会发生什么?过去一年中我改变想法的方式之一,所以这种想法的转变可能会,我这么说吧,我稍微保留一下,可能会反馈到我们公司的计划中,那就是,如果很难想象该怎么做,你就必须展示出来,你必须展示出来,我坚持认为,我认为大多数从事人工智能的人也无法想象,因为它与人们日常所见到的事物差异太大了。

Ilya: 我确实坚持认为,我在这里预测一件事将会发生,这是一个我坚持的预测,那就是随着人工智能变得越来越强大,人们的行为将会改变。我们将看到所有现在没有发生的、前所未有的事情。我会举一些例子。我确实认为,无论好坏,前沿公司将在未来的发展中扮演非常重要的角色,政府也是如此,而且我认为你将看到一些事情的开端,即那些激烈竞争的公司开始在人工智能安全方面进行合作。你可能已经看到了OpenAI和Anthropic迈出了第一个小小的步伐,但这种合作以前是不存在的,这正是我大约三年前在一次演讲中预测会发生的事情。我还坚持认为,随着人工智能变得越来越强大,越来越明显地强大,政府和公众也会产生做点什么的愿望,我认为这是向人工智能展示其重要性的一个非常重要的驱动力,这是第一点。

第二点,那么人工智能正在被构建,需要做什么呢?我坚持认为会发生的一件事是,目前从事人工智能工作的人们,我坚持认为人工智能感觉不到强大是因为它的错误。我确实认为,在某些时候,人工智能会开始感觉强大起来。我认为当这种情况发生时,我们将看到所有人工智能公司对待安全的方式发生巨大变化。它们会变得更加偏执。我这样说是基于一个我预测将会发生的事件。我们将看看我是否正确。但我认为这是会发生的事情,因为他们将看到人工智能变得越来越强大。我认为目前发生的一切都是因为人们看待当今的人工智能时,很难想象未来的AI,而且还有第三件事必须发生,我认为就是这个,我从更广泛的角度谈论它,而不仅仅是从SSI的角度谈论,因为你问我关于我们公司的看法,但问题是,那么公司应该以什么为目标去构建什么呢?有一个大家一直深陷其中的重大理念,那就是自我改进的AI。

为什么会发生这种情况?因为公司的数量多于想法的数量。但我坚持认为有更好的东西可以构建。我认为每个人都会真正想要那个东西。就像一个牢固地、明确地致力于关怀有感知生命的AI。我认为特别是,有一种论点可以提出,构建一个关怀有感知生命的AI比仅构建一个只关怀人类生命的AI要容易,因为AI本身也会是有感知的。如果你考虑镜像神经元和人类对动物的同理心,你可能会争辩说它不够强大,但它的确存在。我认为这是我们通过用于模拟自身的同一电路来模拟他人的这样一个事实所产生的涌现属性,因为那是最高效的做法。因此,即使你让一个人工智能去了解有感知能力的生命,而且如果解决了对齐问题,我也不清楚这是否是你应该努力做的事情,但绝大多数有感知能力的生命体仍然会是人工智能。最终将会有数万亿,乃至数千万亿的人工智能。

Dwarkesh: 人类将只占有感知生命体的极小一部分。

Ilya: 所以,如果目标是某种人类对这个未来文明的控制,那么这是否是最佳标准,对我来说并不明确。这是事实。我认为这是可能的。这不是最佳标准。我想说两点。我认为第一点,我认为如果存在,所以我认为关心有感知能力的生命,我认为它有其价值。我认为应该予以考虑。我认为如果有一个简短的想法清单,然后公司在遇到这种情况时可以利用,那将会是有帮助的。这是第二点。第三点,我认为如果最强大的超级智能的能力在某种程度上受到限制,将会带来实质性的帮助,因为这将解决许多此类担忧。如何做到的问题,我不确定,但我想在谈论真正非常强大的系统时,这将提供实质性的帮助。

Dwarkesh: 在我们继续讨论要素之前,我想就这一点做进一步的深入探讨。顶层还有多大的空间?您如何看待超级智能?您认为,我是说,利用这种学习效率的想法,它可能只是极快地学习新技能或新知识吗?并且它是否拥有更庞大的策略库?核心中心是否存在一个单一的、统一的、更强大的或更大的“它”?如果是这样,您是否想象它与其余人类文明相比将是神一般的存在,还是仅仅感觉像是另一个智能体或另一组智能体?

Ilya: 所以这是不同的人有不同直觉的一个领域。我认为这肯定会非常强大。我认为最有可能发生的情况是,将会有多个。多个这样的人工智能大致在同一时间被创建出来。我认为,如果集群足够大,比如集群的大小真的达到洲际规模,那么那个东西确实会非常强大。如果你真的拥有一个洲际规模的集群,那些人工智能可能会非常强大。我能告诉你的就是,如果你谈论的是极其强大的、真正具有戏剧性强大的人工智能,那么如果它们能在某种程度上受到约束,或者存在某种协议或类似的东西,那会更好。因为我认为,如果你在说,嘿,比如如果你真的,比如超级智能的担忧是什么?解释这种担忧的一种方式是什么?如果你想象一个功能足够强大的系统,比如真正功能强大,你可以说,你需要做一些合乎情理的事情,比如以一种非常专一的方式关怀有情生命,我们姑且这么说。我们可能不喜欢这些结果。这就是它的真实面貌。所以也许,顺便说一句,答案是你不构建单一的、你不会以通常意义上构建一个相关性代理(REL agent)。

Ilya: 事实上,我会指出几点。我认为人类是一个半相关性代理(semi-a-rel agent)。我们追求一个奖励,然后情绪或其他因素使我们对这个奖励感到厌倦。我们追求另一个奖励。市场就像一种,就像一种非常短视的代理。进化也是如此。进化在某些方面非常智能,但在其他方面非常愚蠢。政府的设计宗旨是让三个部门之间进行永无休止的斗争,这产生了影响。所以我思考诸如此类的事情。使这次讨论变得困难的另一个原因是,我们谈论的是尚不存在、我们不知道如何构建的系统。对,那是另一回事。这实际上是我的信念。我认为人们现在所做的会取得一定的进展,然后就会逐渐消退。它会继续改进,但它也不会是最终形态。所以那个最终形态,我们不知道如何构建。我认为很多事情取决于对可靠泛化的理解。现在再说另一件事,就是,你可以说的一件事是,什么会让这种对齐变得困难,那就是人类的价值,你学习人类价值的能力是脆弱的,那么你优化这些价值的能力也是脆弱的。你会,你实际上学会了优化它们。那么你难道不能说,这些不都是不可靠泛化的实例吗?为什么人类似乎泛化得更好呢?如果泛化能力要好得多会怎样?在这种情况下会发生什么?效果会是什么。但那些我们做不到的,比如那些问题现在仍然无法回答。

Dwarkesh: 如何思考人工智能发展顺利的样子?因为我认为你已经概述了人工智能可能如何发展,将会拥有这类持续学习的智能体。人工智能将非常强大。也许会有许多不同的AI。你认为许多大陆规模的智能体四处游荡,情况如何?那有多危险?我们如何才能减少这种危险?我们如何以一种保护性地维持平衡的方式来做这件事,即使存在着目标未对齐的AI和不良行为者?

Ilya: 所以我喜欢关心有感知生命的AI的一个原因,我们可以争论它是好是坏。但如果最初的N个这样的宏大系统确实关心这一点。关心,热爱人类或者其他什么,关心有感知性的生命。显然,这也是需要实现的。这需要实现。所以,如果最初的那些系统能够实现这一点,那么我认为至少在相当长的一段时间内,事情会进展顺利。然后是关于长期会发生什么的问题。长期会发生什么?你如何实现长期均衡?我认为也有一个答案,我不喜欢这个答案,但需要认真考虑。从长远来看,你可能会说,如果你处于一个短期内权力强大存在的世界,你可以说,你实现了普遍的高收入,你实现了普遍的高收入,我们都过得很好,但我们知道佛教徒怎么说?变化是永恒的,所以事物会变化,存在某种政府政治结构的东西,它会发生变化,因为这些东西都有保质期,出现了一种新的政府事务,它在运作,但一段时间后它就不再运作了,这是我们一直看到的情况。所以我想,对于长期均衡,一种方法是你可能会说,也许每个人都会有一个为他们办事的人工智能。那很好。

Ilya: 如果这种情况可以无限期地维持下去,那确实如此。但是那样的缺点是,那么人工智能就会去赚取,为这个人赚钱,并且,在政治领域为他们的需求进行倡导。也许然后写一份小报告说,这是我所做的,这是情况。然后这个人说,太棒了,继续努力。但这个人不再是一个参与者了。然后你可以说那是一个危险的境地。但是,我先声明一下,我不喜欢这个解决方案,但它确实是一个解决方案。这个解决方案是人们通过某种升级版神经连接技术,与人工智能部分融合。因为结果是,现在人工智能理解了某些东西,而我们也理解了它。因为现在这种理解是整体性传输的。所以现在,如果人工智能处于某种情境中,你就仿佛完全身临其境。我认为这就是实现平衡的答案。

Dwarkesh: 我想知道,那些在数百万年,甚至在许多情况下数十亿年前,在一个完全不同的环境中发展起来的情绪,至今仍然如此强烈地指导着我们的行为,这是否是一个“对齐成功”的例子,我来解释一下我的意思。脑干中存在着这些,我不知道称之为价值函数还是奖励函数更准确,但脑干有一个指令,它告诉我们去与一个更成功的人交配。皮层是理解在现代环境中成功意味着什么的那个部分。但脑干能够让皮层保持一致,并说,无论你如何定义成功,我都不够聪明去理解那到底是什么。你仍然会去执行这个指令。

Ilya: 我认为有,所以我认为有一个更普遍的观点。我认为大脑如何编码高层次的欲望,实际上是一个非常神秘的问题。抱歉,是进化如何编码高层次的欲望。比如,进化如何赋予我们对闻起来好的食物的欲望,是相当容易理解的。因为气味是一种化学物质,所以只需要追求那种化学物质。很容易想象进化会做这样的事情,但进化也赋予了我们所有这些社会欲望,比如我们非常在意被社会积极地看待,我们在乎良好的声誉,我们喜欢我们拥有的所有这些社会直觉,我坚信它们是根深蒂固的,但我不知道进化是如何做到的,因为它是在大脑中表示的一个高层次概念,比如人们的想法,比如说你关心某个社会性的东西,它不像气味那样的低层次信号,它不是有传感器的东西,大脑需要进行大量的处理,将许多信息片段拼凑起来,以理解社会上发生的事情,而进化不知何故说你应该关心它是如何做到的?而且它做得很快,因为我认为我们所关心的所有这些复杂的社会性事物,我认为它们进化得相当晚近。

Ilya: 所以进化在硬编码这个高层次的欲望时是很轻松的。我坚持认为,或者至少我要说,我不知道关于它是如何完成的有力假说。我有一些正在思考的想法,但没有一个让我满意。

Dwarkesh: 是的。尤其令人印象深刻的是,如果这是一个你在有生之年习得的愿望,那还说得通,因为你的大脑是智能的。为什么我们能够习得智能的愿望是说得通的。但你的观点是,这个愿望,也许这不是你的观点,但理解它的一个方式是,这个愿望是内建于基因组中的。而基因组不是智能的,但它能够,你不知何故能够描述这个特征,这个特征甚至难以明确定义。

Ilya: 并且你可以将其植入,你可以将其构建到基因中。本质上是这样。或者也许我换个方式来说。如果你考虑基因组可用的工具,它说,好的,这是一个构建大脑的配方。你可以说,这里有一个将多巴胺神经元连接到嗅觉传感器的“食谱”。如果这种气味是某种,好闻的气味,你就想吃它。我可以想象基因组会这样做。我认为这更难想象。更难想象的是,基因组会说你应该关心一些。你的整个大脑,就像你大脑的一大块区域所进行的一些复杂的计算。我只是声称这一点。我可以告诉你一个推测,我一直在思考它如何才能实现。让我提供一个推测,然后我将解释为什么这个推测可能是错误的。

Ilya: 所以这个推测是,好的,大脑,大脑有那些区域。你知道大脑的区域吗?我们有皮层,是的。它有所有那些大脑区域。皮层是均匀的,但是大脑区域和皮层中的神经元,它们大多只是和它们的邻居交流。这就解释了为什么你会得到不同的脑区。因为如果你想进行某种言语处理,所有负责言语的神经元都需要彼此交谈。而且因为神经元在大多数情况下只能与它们附近的邻居交流,所以它必须是一个区域。从人到人,所有这些区域大多位于相同的位置。所以也许进化在字面上将一个位置在他们的大脑中进行了硬编码。所以它会说,当,大脑的全球定位系统,全球定位系统坐标,某个地方,当它激活时,那才应该是你关心的。比如,也许那就是进化所做的事情,因为那会在进化的工具箱之内。

Dwarkesh: 尽管也有一些例子,比如,天生失明的人,他们大脑皮层的那个区域会被另一种感官所占用。我完全不知道,但我会很惊讶,如果……那些需要视觉信号的欲望或奖励功能,在他们大脑皮层的不同区域被重新征用后,是否还会继续起作用。例如,如果你不再有视觉,你还能否感受到我希望周围的人喜欢我的这种感觉等等?通常这些也有视觉线索来支持。

Ilya: 所以我实际上完全同意这一点。我认为这个理论有一个更强有力的反驳论点,那就是,比如,如果你想想那些人在童年时期被切除了一半大脑的人。他们仍然拥有所有的脑区,但所有脑区都以某种方式转移到了一个半球,这表明脑区的位置并不是固定的。所以那个理论是不成立的。如果那是真的,那会很酷,但事实并非如此。所以我想这是一个谜团,但这是一个有趣的谜团。事实是,不知何故,进化能够可靠地赋予我们关心社交事务的能力。即使是那些患有各种奇怪的心理疾病、缺陷和情感问题的人,也倾向于关心这些事情。

Dwarkesh: 像深度伪造、语音克隆和代理等人工智能工具极大地提高了欺诈和滥用的复杂程度。因此,比以往任何时候都更重要的是要真正了解使用您平台的任何人或事物的身份和意图。这正是Sardine帮助您做的事情。Sardine整合了数千个设备、行为和身份信号,以帮助您评估风险。从用户如何打字、移动鼠标或握持设备,到他们是否通过VPN隐藏真实位置,再到他们是否在“了解你的客户”(KYC)自拍检查中注入虚假的摄像头源。Sardine将这些信号与其近40亿台设备网络中的洞察相结合,例如用户的欺诈历史或他们与其他高风险账户的关联。这样你就能在恶意行为者造成损害之前发现他们。如果你只使用自己应用程序中的数据,这实际上是不可能的。Sardine 不会阻止检测。他们提供一套代理程序,以简化入职检查并自动化调查。因此,当欺诈者利用人工智能来扩大其攻击范围时,你也可以利用人工智能来扩大你的防御范围。前往 sardine.aI。斜杠 Thwar Keshe 了解更多信息并下载他们关于人工智能欺诈检测的指南。

Dwarkesh: SSI 计划做些什么不同的事情?因此,可以推断,当这个时刻到来时,你的计划是成为前沿公司之一。那么,你大概是这样开始 SSI 的:你想到了一个安全地处理此事的途径,而其他公司没有。这种区别是什么?

Ilya: 所以我的描述方式是,有一些我认为有前景的观点,我想去探究它们,看看它们是否果真如此。有前景。就这么简单。这是一种尝试。我认为,如果这些观点——我们讨论的关于理解泛化的观点——最终被证明是正确的。如果这些观点最终被证明是正确的,那么我认为我们将获得一些有价值的东西。它们最终会被证明是正确的吗?我们正在进行研究。我们是一家纯粹的研究公司。我们正在取得进展。在过去的一年里,我们实际上取得了相当不错的进展。但我们需要继续取得更多进展,进行更多研究。我就是这样看待的。我将其视为一种尝试,一种尝试成为一个声音和一个参与者。

竞争格局与战略趋同

Dwarkesh: 人们问过你的联合创始人和前首席执行官最近去了meta。人们问,如果取得了许多突破,这似乎是一件不太可能发生的事情,我想知道你如何回应。

Ilya: 是的。所以对于这个问题,我只想提醒一些可能已被遗忘的事实。我认为这些事实提供了背景,我认为它们解释了这种情况。所以背景是,我们在以320亿美元的估值进行筹资。接着,meta 介入并提出收购我们。我当时拒绝了,但我的前联合创始人,在某种意义上,同意了。结果,他也因此获得了大量的短期流动性。他是 SSI 唯一加入 meta 的人。

Dwarkesh: 听起来,SSI 的计划是成为一家走在最前沿的公司,在人类历史上这个非常重要的时期——当你们拥有超人类智能,并且对如何让超人类智能顺利发展有自己的想法时——保持在最前沿。但其他公司也会尝试他们自己的想法。SSI 如何确保超级智能顺利发展的做法有何不同之处?

Ilya: SSI 的主要区别在于其技术方法。所以我们有不同的技术方法,我认为这是有价值的。而且我们正在努力实现它。我认为最终将会出现社会方面的趋同。策略。所以我认为策略上将会出现趋同,在某个阶段,随着人工智能变得更强大,每个人都将或多或少地清楚应该采取何种策略。这应该类似于,你需要找到某种方式进行交流。而且你希望你的第一个真正强大的超级智能人工智能是保持一致的,并且以某种方式,关心有情众生,关心人民,民主,这些特征的某种组合。我认为这是每个人都应该努力争取实现的条件。这就是社会正在努力的方向。我认为这一次,如果不是已经,所有其他公司都会意识到他们正在朝着同一个目标努力。我认为随着人工智能变得更加强大,世界将真正发生改变。是的。而且我认为很多这些预测将会,我想事情将会变得非常不同,人们的行为也会非常不同。

Dwarkesh: 谈到预测,您对您所描述的这个可以像人类一样学习的系统有什么预测?随后,结果就是它会变得超人化。我认为,大概是5到20年。5到20年?所以我只是想展开说说你的……你可能会如何看待世界的发展。就像是,我们还有几年时间,这些其他公司……正在继续当前的方法,然后陷入停滞。陷入停滞在这里是什么意思,是指它们的收入不会超过数千亿美元吗?或者您如何理解“陷入停滞”的含义?

Ilya: 是的。我认为它可能会停滞不前,我认为停滞不前看起来会是,对所有公司来说都会看起来非常相似。是的。在所有不同的公司中,类似这种情况。我不确定,因为我认为,我认为即使有,我认为即使,我认为即使,我认为即使这种情况停滞不前,我认为这些公司也能获得巨大的、巨大的收入。也许不是利润,因为它们将需要努力区分彼此,但收入肯定会。

Dwarkesh: 但你的模型中暗示着,当正确的解决方案出现时,所有公司之间将会出现趋同。我很想知道你为什么会这样认为。

Ilya: 嗯,我更多地谈论的是它们最大战略上的趋同。我认为最终在技术方法上的趋同也可能会发生。但我所指的是最大战略上的趋同。到底要做的事情是什么?

Dwarkesh: 我只是想更好地了解你对滚动(发展)的未来看法。所以目前我们有这些不同的公司,你期望他们的方法能继续产生收入,但不会达到这种像人类一样的学习者。是的。所以现在我们有这些不同的公司分支。有你们,有思维机器(Thinking Machines),还有其他一些实验室。是的。也许其中一个能找出正确的方法。但是他们产品的发布会让其他人清楚地知道该如何做这件事吗?

Ilya: 我认为这不会让人们清楚地知道该如何做这件事,但会让他们清楚有不同的可能性存在。那就是信息。我认为人们会接着试图弄清楚那究竟是如何运作的。我确实认为,有一点我没有在这里阐述,没有讨论到的是,随着人工智能能力的每一次提升,我认为都会带来某种程度的改变,但我确切不知道会是哪些改变以及事物将如何被执行。所以,我认为这一点会很重要,但我无法确切地说明那具体是什么。

Dwarkesh: 默认情况下,你会期望拥有该模型的模型公司能够获得所有这些收益,因为他们拥有这个模型,而该模型正在学习如何做所有事情,正在积累它在世界上所掌握的技能和知识。有什么理由认为这些收益会得到广泛分配,而不会仅仅集中在哪个模型公司首先建立了这种持续学习循环。

市场动态与 AI 的专业化分工

Ilya: 比如,我认为经验上发生的情况是,所以以下是我的预测。第一,我认为从经验上看,让我们看看到目前为止过去的人工智能发展情况。所以一家公司提前生产,而另一家公司在一段时间后仓促生产出一些类似的产品,然后它们开始在市场上竞争并压低价格,所以我认为从市场角度来看,我认为那里也会发生一些类似的事情,即使有人说“我们谈论的是好世界,顺便说一句,好世界是什么?好世界是什么?在这个世界里,我们拥有强大的人类般学习者,它们也像... 顺便说一句,也许还有我们没有讨论过的关于超级智能人工智能的一个规格,我认为值得考虑,那就是你可以让它既是狭窄的,又能同时有用和狭窄。

Ilya: 所以你可以拥有许多狭窄的超级智能人工智能。但假设你有很多这样的AI,而且你拥有。有些公司从中获取了巨额利润。然后有另一家公司进来开始竞争。竞争的方式将是通过专业化来实现的。我认为将会发生的是,竞争的方式,比如竞争就喜欢专业化。你在市场上看到了这一点。你在进化中也看到了这一点。所以你将拥有许多不同的生态位。在这样的世界里,你将拥有许多占据不同生态位的公司。我们可能会说,比如,一家人工智能公司在某个非常复杂的经济活动领域确实要好得多,而另一家公司在另一个领域更好,第三家公司在诉讼方面非常出色,这就是你想要采取的路径。

Dwarkesh: 这与类人学习的含义相矛盾吗?它可以学习?

Ilya: 它可以,但是,但是你已经积累了学习经验。你有大量的投入。你花费了大量的计算资源,才真正地、非常地、非常、非常擅长于此。真正地、真正地擅长于此事,达到了惊人的水平。而另一个人花费了大量的计算资源和大量的经验,才在其他一些事情上变得非常非常擅长。对。你应用了大量的人类学习经验才达到那个水平。但现在,就像你处于一个高点,而其他人会说,看,我不想从头开始学习你学到的东西,不去经历这个过程。

Dwarkesh: 我猜那将需要许多不同的公司同时从人类层面,即持续学习智能体开始,以便它们可以在不同的分支中开始它们不同的研究。但是,如果一家公司,首先获得了那个智能体或者首先获得了那个学习者,那么它确实看起来是,嗯,如果你只考虑经济中的每一个工作,你只是有实例学习,对一家公司来说似乎都是可行的。

Ilya: 这是一个合理的论点。我的强烈直觉是情况不会这样发展。我的强烈直觉是,就像论点所说的,情况会这样发展,但我的强烈直觉是情况不会这样发展。这是,理论上,理论和实践与实践理论之间没有区别。我认为这将是其中之一。

Dwarkesh: 很多人对递归自我改进的模型,明确地陈述我们将有一个运行在服务器上的百万个伊利亚(智能体),它们带着不同的想法进来,这将非常快地导致超级智能的出现。你对你正在做的事情有多少可并行化的直觉?复制伊利亚(智能体)能带来什么好处?我不知道。

自我对弈、多样性与研究品味

Ilya: 我认为肯定会有边际效益递减,因为你想要的是那些想法不同而非想法相同的人。我想,如果他们是我的字面上的复制品,我不确定你能获得多少增量价值。我认为,但那些想法不同的人,目前,那就是你想要的。

Dwarkesh: 为什么会是这样,如果你看看不同的模型,即使是完全不同的公司发布,在潜在不重叠的数据集上训练的,大型语言模型(LLM)彼此之间竟然如此相似,真是太疯狂了?也许数据集并非如看起来那样不重叠。但有一种感觉是,即使单个人类的生产力可能不如未来的人工智能,也许人类团队比人工智能团队具有更多样性这一点是有意义的,但我们如何引出意义呢?人工智能之间有意义的多样性。所以我认为仅仅提高温度就会产生胡言乱语。我认为你想要的是更像具有不同偏见或不同思想的各种科学家。你如何让人工智能代理之间实现这种多样性呢?

Ilya: 所以我认为之所以没有多样性,是因为预训练。所有预训练模型基本上都一样,因为它们是在相同的数据上预训练的。现在,奖励工程(REL)和后训练是开始出现差异的地方,因为不同的人提出了不同的奖励训练方法。

Dwarkesh: 是的。过去我曾听你暗示过,自博弈是获取数据或让智能体与具有同等智能的其它智能体进行匹配以启动学习的一种方式。我们应该如何思考为什么没有关于这种与所有透镜(lens)一起工作的思想的公开提议。

Ilya: 我会说有两点要讲。我会说我认为自博弈很有趣的原因是它提供了一种仅通过计算而不通过数据来创建模型的方法。如果你认为数据是最终的瓶颈,那么仅使用计算就非常有趣了。所以这就是它有趣的原因。现在,问题在于自博弈,至少是过去的做法,当智能体之间以某种方式竞争时,它只擅长发展特定的一套技能。它太狭隘了。它只适用于类似谈判、冲突、某些社交技能、策略规划这类事情。所以,如果你关心这些技能,那么自我对弈就会有用。现在,实际上我认为自我对弈找到了一个立足之地,只是以一种不同的形式,不同的形式。比如辩论、证明、验证者,你让某种大型语言模型充当裁判,它也有动机在你的工作中发现错误。你可能会说这不完全是自我对弈,但我相信这是一种人们正在做的、相关的对抗性设置。实际上,自我对弈是更一般的智能体之间竞争的一个特例。对竞争的自然反应是试图与众不同。所以,如果你放入多个智能体,并告诉它们,你们都需要解决某个问题,而你是一个智能体,你正在检查其他所有智能体的工作,你就会想,如果它们已经在采取这种方法了,我不清楚我是否应该效仿。我应该追求一些差异化的东西。所以,我认为这样的事情也可以激励产生多样化的方法。

Dwarkesh: 是的。最后一个问题,什么是研究品味?你显然是世界上被认为在人工智能研究方面拥有最佳品味的人,你是深度学习历史上许多最重要的、最大的突破的共同作者,从 AlexNet 到 GPT3 等等。你是如何界定你产生这些想法的方式的?

Ilya: 我可以回答。所以我可以就我个人发表评论。我认为不同的人做事情的方式不同。但对我个人而言,有一个指导原则是如何构建人工智能的美学,即思考人是什么样的。但正确地思考,比如,很容易错误地思考人是什么样的。但正确地思考人意味着什么呢?所以我会给你举一些例子。人工神经元的概念直接受到大脑的启发。这是一个绝妙的想法。为什么?因为你会说,当然,大脑有所有这些不同的器官。它有褶皱,但这些缺陷可能不重要。我们为什么认为神经元很重要呢?因为它们数量众多,这感觉是对的,...

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。