当前位置: 首页 » 资讯 » 新科技 » 正文

Anthropic联合创始人:AI的“扩展法则”与通往人类级智能的可预测之路 | 附全文1.5万字+视频

IP属地 中国·北京 编辑:陆辰风 Web3天空之城 时间:2025-07-30 22:05:35

文: Web3天空之城 | 未经许可不得转载


[城主说] 在人工智能飞速发展的浪潮中,我们常常将其进步归因于研究人员的灵光一现或算法的神秘突破。但如果真相并非如此呢?如果AI能力的提升,实际上遵循着一套如物理定律般精确、可预测的法则呢?这正是Anthropic联合创始人、前理论物理学家贾里德·卡普兰(Jared Kaplan)在此次YC的AI创业学院的最新研究访谈中为我们揭示的。他认为,当代AI革命的真正引擎,是被称为“扩展法则”(Scaling Laws)的现象——通过系统性地增加计算、数据和模型规模,我们正在一条清晰且可预测的道路上,稳步迈向人类水平的通用人工智能。


核心观点摘要“推动人工智能进步的根本原因,并不是因为人工智能研究人员突然变得更聪明了。而是我们找到了一种非常、非常简单的方法,可以系统地改进人工智能,而我们正在做的,就是转动这个曲柄。”“AI模型能够完成的任务长度,大约每7个月就会翻一番。这种图景表明,在未来几年,AI能够完成的任务将不仅需要我们几分钟或几小时,而是几天、几周、甚至几年。”“我认为,为了广泛地解锁人类级别的人工智能,最重要的三大要素是:相关的组织知识、用于长期任务的记忆,以及处理模糊与复杂任务的监督能力。”“我认为人们在与人工智能交互中可以发挥的主要作用,是充当一名管理者,来对AI完成的工作进行理智地检查(sanity check)。”“我总是推荐的是,在人工智能能力边界上进行某种实验,去构建一些尚未完全奏效的东西。因为你可以预期,下一个版本的模型将使该产品发挥作用并提供大量价值。”“很多时候,当扩展法则似乎失效时,那只是因为我们自己做错了什么。我的第一反应是,如果扩展法则失效,那是因为我们在某种程度上搞砸了AI训练。”“所有的价值都在前沿吗?还是在那些没那么强大但更便宜的系统中也存在大量价值?我确实期望很多价值将来自最强大的模型。”从物理学到AI:发现可预测的智能提升之路

对于一位职业生涯大部分时间沉浸在理论物理学中的科学家而言,转向人工智能似乎是一次巨大的跨越。但对贾里德·卡普兰来说,这背后是一以贯之的探索精神——寻找并理解我们周围世界最宏大的趋势。正如他所说,促使他投身物理学的,是少年时“想弄清楚我们是否可以建造一个超光速驱动器”的科幻梦想。而促使他最终全身心投入AI的,则是在物理学多个领域感到进展放缓时,对一个新领域底层规律的好奇。

起初,卡普兰对AI持怀疑态度,直到他开始用物理学家的思维方式提出那些“最愚蠢、最简单的问题”。“我听说在2010年代,大数据很重要,所以我只是想知道数据应该有多大?它有多重要?” 同样,“很多人注意到更大的AI模型表现更好,所以我们只是问了一个问题,这些模型表现得好多少?”

正是这些看似天真的问题,引导他和团队发现了AI领域最深刻的秘密之一:扩展法则。他们震惊地发现,AI模型的性能提升并非随机或偶然。无论是在其学习人类语言模式的“预训练”阶段,还是在通过反馈学习执行有用任务的“强化学习”阶段,其进步都遵循着精确且可预测的规律。

“我们发现AI训练实际上有一些非常、非常、非常精确和令人惊讶的底层规律,” 卡普兰强调,“这些趋势像你在物理学或天文学中看到的任何东西一样精确,这给了我们很大的信心,相信AI会以一种非常可预测的方式变得越来越聪明。” 早在2019年,他们就观察到,在计算量、数据集大小和模型参数这三个维度上,性能的提升曲线跨越了数个数量级,呈现出惊人的线性关系。这一发现,成为了卡普兰眼中AI进步的根本原因。

扩展的前沿:从几分钟到几个月,不断延伸的任务时间跨度

如果说扩展法则是AI进步的引擎,那么其最直观的体现,就是AI能够处理的任务复杂度在不断延伸。卡普兰提出了一个极富洞察力的衡量维度:任务的时间跨度,即一个普通人完成AI所能处理的任务所需的时间。

他引用了METER组织的一项系统性研究,该研究发现了另一个惊人的扩展趋势。“他们发现,如果你观察人工智能模型可以完成的任务的长度,它大约每7个月翻一番。” 这意味着,AI正从只能完成需要数分钟的简单任务(如文本摘要),稳步迈向能够处理需要数小时的复杂任务(如编写和调试一段功能代码)。

将这条曲线向前推演,一幅激动人心又引人深思的图景便浮现出来。“这种图景表明,在未来几年,我们可能会达到一个临界点,即人工智能模型可以完成的任务不仅需要我们几分钟或几小时,还需要几天、几周、几个月、几年等等。” 卡普兰设想,最终,由数百万个AI模型组成的协同系统,将能够完成今天需要整个人类组织、甚至整个科学界才能完成的工作。“你可以想象人工智能系统协同工作,在几天、几周等时间内取得理论物理界大约50年才能取得的进展。”

通往人类级智能的三大支柱

尽管扩展法则描绘了一条清晰的道路,但要实现广泛意义上的人类级AI(AGI),仅仅“转动曲柄”是不够的。卡普兰明确指出了当前模型与未来理想形态之间的三个关键差距,它们是通往更高级智能必须搭建的三大支柱。

第一,是知识(Knowledge)。未来的AI不能再是一个“空白状态”的通用工具,它需要被赋予特定领域的组织知识。“我们需要训练人工智能模型,它们可以学习在公司、组织、政府内部工作,仿佛它们拥有在那里工作多年的员工所拥有的那种背景知识。”

第二,是记忆(Memory)。这与知识不同,它特指在执行一个超长周期的复杂任务时,追踪特定进展、建立相关上下文并随时调用的能力。这是实现从“小时级”任务跨越到“周级”或“月级”任务的核心技术瓶颈。

第三,是监督(Supervision)。目前,AI在有明确对错标准的任务(如编程测试、数学解题)上进步神速,因为强化学习的信号非常清晰。但要让AI掌握更高级的人类智慧,就需要更精细的监督能力。“我们需要并且正在开发的,是利用AI模型帮助我们生成更细微的奖励信号,以便我们可以利用强化学习来做一些事情,比如讲好笑话、写好诗,并在研究方面有良好的品味。”

新协作范式:作为“管理者”的人类

在AI能力日益强大的今天,人类的角色将如何演变?卡普兰给出了一个清晰的定位。他认为,AI智能形态与人类智能的一个根本不同在于,AI的判断能力和生成能力更为接近。这意味着,它在能够出色完成任务的同时,也可能犯下人类看来非常低级的错误。

因此,在当前阶段,人机协作的最佳模式并非简单的“副驾驶”。“我认为人们在与人工智能交互中可以发挥的主要作用,是充当一名管理者,来对AI完成的工作进行理智地检查(sanity check)。” 这种模式在YC的创业公司中也得到了印证:早期产品多为“副驾驶”,需要人类最终批准;而现在,越来越多的产品开始提供端到端的工作流替代方案,但这背后依然隐含着人类在更高层面的监督和管理。

卡普兰相信,随着AI可靠性的提升,完全自动化的任务会越来越多。“但我确实认为,从长远来看,人机协作将是最有趣的地方,因为对于最前沿的任务,你真的需要在环中有人。” 特别是在需要整合大量跨领域知识的研究中,AI的广度(吸收了人类文明的所有知识)与人类专家的深度相结合,将爆发出巨大的潜力。

给建设者的忠告:在能力边界上构建未来

对于所有身处这场技术浪潮中的开发者、创业者和投资者,卡普兰鼓励大家大胆拥抱不确定性,在技术的最前沿进行实验。“我认为构建一些尚未完全奏效的东西是个非常好的主意,” 他解释道,“因为AI模型正在非常非常迅速地变得更好……你可以预期会出现一个新版本的模型,它将使你的产品发挥作用并提供大量价值。”

其次,要善于利用AI本身来加速AI的集成。当前AI发展的一大瓶颈是,技术进步的速度超过了其在各行各业的落地速度。“利用人工智能进行人工智能整合将会非常有价值,” 这就像电力革命早期,真正的变革并非用电动机取代蒸汽机,而是重塑整个工厂的运作方式。

最后,关于价值的分布,卡普兰倾向于认为,尽管廉价模型能完成大量简单任务,但真正的颠覆性价值将集中于能力最强的“前沿模型”。这背后是经典的“杰文斯悖论”——技术效率的提升,反而会增加对该技术(尤其是最高效形态)的总需求。“能够使用一个可以端到端完成非常复杂任务的AI模型,而不是要求我们人类来协调一个更笨的模型……会方便得多。所以,我确实期望很多价值将来自最强大的模型。”

天空之城全文整理版 从物理学到AI:扩展法则的发现之旅

贾里德: 大家好,我是贾里德·卡普兰。我将简要地谈谈扩展以及通往人类水平人工智能的道路,但我想对于在座的各位来说,很多这些想法都相当熟悉,所以我将尽量简短,然后我们将与戴安娜进行一次炉边谈话式的问答。实际上我只从事人工智能方面的工作大约六年。在此之前,我从事了一段漫长的职业生涯。我职业生涯的绝大部分时间都是作为一名在学术界工作的理论物理学家,那么我是如何接触到人工智能的呢?好吧,我想尽量简短。

我为什么开始从事物理学呢?这基本上是因为我妈妈是一位科幻小说作家,我想弄清楚我们是否可以建造一个超光速驱动器,而物理学是实现这一目标的途径。我也非常兴奋地想了解宇宙,事物是如何运作的,我们周围所看到的一切背后的最大趋势是什么,这一切来自哪里?例如,宇宙是确定性的吗?我们有自由意志吗?我对所有这些问题都非常非常感兴趣,但幸运的是,在我作为物理学家的职业生涯中,我遇到了很多非常非常有趣、非常深刻的人,包括我现在一直合作的Anthropic的许多创始人,我真的对他们所做的事情很感兴趣,我一直在关注它,并且当我从物理学中不同的学科领域,从大型强子对撞机物理学、粒子物理学、宇宙学、弦理论等等,我感到有点沮丧,有点无聊。我觉得我们进展不够快,很多朋友告诉我人工智能正在变得非常重要,但我并不相信他们。我真的很怀疑。我想,好吧,人工智能,人们已经研究了50年了。支持向量机(SVMs)没有那么令人兴奋。那是2005年、2009年我在学校时我们所知道的全部,但我确信人工智能可能是一个令人兴奋的领域,我很幸运地认识了合适的人,剩下的就是历史了。

接下来我会稍微谈谈我们当代人工智能模型是如何工作的,以及扩展如何使它们变得越来越好。因此,像Plod、ChatGPT等当代人工智能模型的训练实际上有两个基本阶段。第一阶段是预训练,我们在预训练阶段训练人工智能模型来模仿人类书写的数据、人类书写的文本,并理解这些数据的基础关联性,这些图表非常非常复古。这实际上是最初GPT-3模型的游乐场,你可以看到,作为期刊俱乐部的发言人,你可能会怂恿我说某些话。句子中的“大象”这个词非常非常不可能出现。预训练所做的是教会模型在大规模语料文本中哪些词可能跟在其他词之后,现在对于当代模型来说,还包括多模态数据。

当代人工智能模型的第二阶段训练是强化学习。这又是一张非常复古的幻灯片。它展示了我们在2022年那个古老年代,收集反馈数据时,用于Plod 0或Plod负1的原始界面。你在这里看到的是与非常、非常早期版本的Plod进行对话的界面,并根据你、众包工人等的说法,选择Plod的哪个回复更好,并使用该信号,我们优化、我们强化那些被选择为良好、被选择为有帮助、诚实和无害的行为。我们阻止那些不好的行为,所以训练这些模型的所有内容实际上就是学习预测下一个词,然后进行强化学习来学习执行有用的任务,并且事实证明,这两个训练阶段都有缩放定律。

这是我们五六年前制作的一张图,它显示了当你扩大人工智能的预训练阶段时,我们的模型会如何可预测地获得越来越好的性能,而这件事情的出现是因为我只是问了最愚蠢的问题。作为一名物理学家,你就是被训练来做这件事的。你会观察大局,然后问一些非常愚蠢的问题。我听说在2010年代,说大数据很重要,所以我只是想知道数据应该有多大?它有多重要?它有多大帮助?同样地,很多人注意到更大的AI模型表现更好,所以我们只是问了一个问题,这些模型表现得好多少?我们真的很幸运。我们发现AI训练实际上有一些非常、非常、非常精确和令人惊讶的底层规律。这真的让我们震惊,因为这些趋势非常棒,而且像你在物理学或天文学中看到的任何东西一样精确,这些给了我们很大的信心,相信AI会以一种非常可预测的方式变得越来越聪明,因为正如你在这些图中看到的,早在2019年,我们就在计算量、数据集大小和神经网络大小方面,跨越了许多、许多、许多数量级,所以我们预计,一旦你看到某件事在许多、许多、许多数量级上都是正确的,你就会期望它在更长的时间内继续保持正确。

因此,这在某种程度上是我认为AI改进的根本原因之一。另一个实际上也是很久以前就开始出现的事情,尽管它在过去几年里变得非常、非常具有影响力,那就是你可以在AI训练的强化学习阶段看到规模法则。因此,大约4年前,一位研究人员决定研究AlphaGo的扩展法则,基本上是将两个非常非常引人注目的AI成功案例,GPT-3和预训练的扩展以及AlphaGo结合在一起。这只是一位研究人员,安迪·琼斯,靠自己研究,用他自己的,我想,也许是当时那些古老日子里的单GPU。因此,他无法研究AlphaGo,那太昂贵了,但他可以研究一种更简单的游戏,叫做Hex。所以他制作了你在这里看到的这张图。现在,ELO分数,我想,那时还不那么广为人知,但所有ELO分数,当然,都是国际象棋等级分。它们基本上描述了一位玩家在国际象棋游戏中击败另一位玩家的可能性有多大。它们现在被用来对AI模型进行基准测试,以了解人类更喜欢一个AI模型而不是另一个模型的频率。但在当时,这只是ELO分数作为国际象棋等级分的经典应用。他观察到,当你训练不同的模型来玩Hex这款游戏时(这是一款非常简单的棋盘游戏,比围棋简单一点),它们的表现如何?他看到了这些显著的直线。因此,在科学上,注意到非常非常简单的趋势是一种技能。这就是其中之一。我认为这没有引起注意。我认为人们没有足够早地关注强化学习中这种规模化行为,但最终它还是发生了。所以我们基本上看到,你可以扩大预训练和强化学习中的计算规模,并获得越来越好的性能。而且我认为这是推动人工智能进步的根本原因。并不是因为人工智能研究人员真的很聪明,或者他们突然变得聪明了。而是我们找到了一种非常非常简单的方法,可以系统地改进人工智能,而我们正在转动这个曲柄。

那么,这正在解锁哪些能力呢?我倾向于从两个维度来考虑人工智能的能力。我认为不那么令人感兴趣的一个维度,但它仍然非常重要,基本上就是人工智能的灵活性,人工智能适应我们的能力。所以,如果你把,比如,AlphaGo放在这张图上,它会远低于x轴,因为虽然AlphaGo超级智能,它在围棋方面比任何围棋选手都强,但它只能在围棋棋盘的宇宙中运行。但自从大型语言模型出现以来,我们取得了稳步进展,使得人工智能能够处理人们能够处理的许多、许多、许多、所有的模态。我认为,我们还没有具有嗅觉的人工智能模型,但这可能即将到来。因此,当你沿着这里的y轴向上移动时,你会得到可以在世界上做越来越多相关事情的人工智能系统。

不过,我认为更有趣的轴是这里的x轴,即人们完成人工智能模型可以完成的这类任务所需的时间。随着我们提高人工智能的能力,这个时间一直在稳步增加。这有点像是任务的时间范围。有一个名为METER的组织对这个问题进行了非常系统的研究,并发现了另一个规模扩展趋势。他们发现,如果你观察人工智能模型可以完成的任务的长度,它大约每7个月翻一番。因此,这意味着通过扩展用于预训练和强化学习的计算能力,人工智能中嵌入的智能正在导致人工智能模型可以完成的可预测的、有用的任务,包括越来越长时间范围的任务。因此,你可以推测一下这会走向何方,在“人工智能2027”中,人们确实这样做了。这种图景表明,在未来几年,我们可能会达到一个临界点,即人工智能模型可以完成的任务不仅需要我们几分钟或几小时,还需要几天、几周、几个月、几年等等。最终,我们设想人工智能模型,或者可能是数百万个人工智能模型协同工作,将能够完成整个人类组织可以做的工作。它们将能够完成整个科学界目前所做的那种工作。数学或理论物理的美妙之处在于,你只需思考就能取得进展。因此,你可以想象人工智能系统协同工作,在几天、几周等时间内取得理论物理界大约50年才能取得的进展。

如果这种规模化的图景能带我们走得很远,那么还剩下什么?还剩下什么?我认为,为了广泛地解锁人类级别的人工智能,可能剩下的东西相对简单。我认为,最重要的要素之一是相关的组织知识。因此,我们需要训练人工智能模型,它们不仅仅以空白状态迎接你,而且可以学习在公司、组织、政府内部工作,仿佛它们拥有在那里工作多年的员工所拥有的那种背景知识。所以我认为人工智能模型需要能够运用知识。它们也需要记忆。如果知识不是记忆,那记忆又是什么呢?我区分它的意义在于,当你在做一个需要花费非常非常长时间的任务时,你需要跟踪你在该特定任务上的进展。你需要建立相关的记忆,并且需要能够使用它们。这就是我们已经开始构建到第四象限中的东西,我认为它将变得越来越重要。第三个我认为我们需要改进并且正在取得进展的要素是监督,即人工智能模型理解细微差别、解决困难且模糊任务的能力。因此,现在当我们看到进展的爆发时,很容易训练人工智能模型来说编写可以通过测试的代码,或者正确地回答数学问题,因为什么是正确的,什么是不正确的非常明确。因此,很容易应用强化学习,使人工智能模型在这些类型的任务中做得越来越好。但我们需要并且正在开发的是人工智能模型,它可以帮助我们生成更细微的奖励信号,以便我们可以利用强化学习来做一些事情,比如讲好笑话、写好诗,并在研究方面有良好的品味。

我认为我们需要的其他要素更简单。我们显然需要能够训练人工智能模型来完成越来越复杂的任务。我们需要从文本模型逐步提升到多模态模型,再到机器人。我预计在未来几年,当应用于这些不同领域时,我们将看到规模化带来的持续增长。

那么我们应该如何为这个未来,这些可能性做好准备呢?我认为有几件事我总是推荐。首先,我认为构建一些尚未完全奏效的东西是个非常好的主意。这可能一直都是个好主意。我们总是要有雄心壮志。但我认为特别地,现在的人工智能模型正在非常非常迅速地变得更好。而且我认为这种情况会持续下去。这意味着,如果你开发了一个产品,由于四核4.0仍然有点笨拙而不能完全发挥作用,你可以预期会出现一个四核5.0,它将使该产品发挥作用并提供大量价值。所以我认为我总是推荐的是,在人工智能能力边界上进行某种实验,因为这些边界正在迅速移动。

我认为下一点是,人工智能将有助于人工智能的整合。我认为人工智能的主要瓶颈之一实际上是,它发展得太快了,以至于我们没有时间将其整合到产品、公司、我们所做的其他一切以及科学中。因此,我认为为了加快这一进程,利用人工智能进行人工智能整合将会非常有价值。

最后,我的意思是,我认为这对在座的各位来说是显而易见的,但弄清楚人工智能在何处能够非常、非常迅速地被采用是关键。我们看到人工智能在编码集成方面出现了爆炸式增长,而且有很多理由说明软件工程是人工智能的好去处。但我认为,关键问题是接下来会发生什么?除了软件工程之外,还有什么能够如此迅速地增长?当然,我不知道答案,但希望你们能搞清楚。

演讲就到这里。我想邀请黛安娜上台聊聊。

炉边对话:Claude 4、人机协作与未来机遇

主持人: 这是一个关于所有规模法则的精彩演讲。最近,Anthropic刚刚发布了Claude 4,现在可以使用了。好奇的是,随着所有这些模型版本的发布在未来12个月内不断累积,它将如何改变可能实现的事情?

贾里德: 我认为,如果12个月后才出现更好的模型,我们会有麻烦的。但我想Claude 4有一些改进。我认为对于Claude 3.7 Sonnet来说,使用3.7进行编码已经非常令人兴奋了。但我想每个人都注意到的是,3.7有点过于积极。有时它真的非常想让你的测试通过,然后会做一些你并不真正想让它做的事情。有很多类似try-except语句之类的东西。所以对于Claude 4,我认为我们已经能够提高模型作为代理(特别是针对编码)的能力,而且在搜索、各种其他应用等很多其他方面也有所提高。同时也改进了它的监管能力,就是我在演讲中提到的那种监督,以便它遵循你的指示,并有望提高代码质量。

我认为我们所做的另一件事是提高它保存和存储记忆的能力。我们希望看到人们利用这一点,因为Claude 4可以在非常复杂的任务中超出其上下文窗口的限制,但也可以将记忆存储为文件或记录,并检索它们,以便在许多、许多上下文窗口中继续工作。

但我想最后,我认为规模法则所描绘的图景是一种渐进式进步。所以我认为你将在Claude中看到的是,随着每次发布,它在许多不同的方面都在稳步改进。但我认为,扩展实际上暗示了一种平滑的曲线,朝着我所期望的那种人类水平的人工智能或通用人工智能发展。这里有很多观众会为此感到兴奋的特殊功能吗?

主持人: 您可以提供一些测试版,一些alpha泄露,让大家了解您认为人们会喜欢的新API的哪些方面。

贾里德: 我认为我最兴奋的事情是解锁越来越长的任务时间跨度。我认为随着时间的推移,我们将看到Claude作为一个可以承担越来越大的工作量的协作者。

主持人: 这就是您所说的,所有这些未来的模型都能够承担越来越大的任务。现在,它们能够完成以小时为单位的任务了吗?

贾里德: 是的,我认为是这样。我认为这是一个非常不精确的衡量标准。但我想现在,如果你看看软件工程任务,我认为Meter确实对人们完成各种任务所需的时间进行了基准测试。是的,我认为这是以小时为单位的时间尺度。我认为就像人们广泛地使用人工智能一样,我对人工智能持怀疑态度的人会正确地说,人工智能会犯很多愚蠢的错误。它可以做一些绝对精彩并让你感到惊讶的事情,但它也可能犯一些基本错误。我认为人工智能的一个基本特征,即人工智能的形态与人类智能的不同之处在于,有很多事情我做不了,但我至少可以判断它们是否做得正确。我认为对于人工智能来说,判断与生成能力更为接近,这意味着我认为人们在与人工智能交互中可以发挥的主要作用是充当管理者来理智地检查工作。

主持人: 这非常有趣,因为我们在YC去年的批次中观察到的一件事是,很多公司在推出和销售产品时,仍然更多地将其作为副驾驶来销售,比如你会有一个客户支持的副驾驶,在你发送给客户回复之前,仍然需要最后的人工批准。但我认为仅在春季批次中就发生了一件事变化,我认为很多AI模型非常有能力端到端地完成任务,正如你所说,这非常了不起。创始人现在直接销售完全工作流程的替代品。你如何看待这转化为你希望这里的听众构建的东西?

贾里德: 我认为有很多可能性。基本上,这是一个关于什么程度的成功或表现是可以接受的问题。有些任务达到大约70%的正确率就足够了,而另一些任务则需要达到99.9%才能部署。我认为老实说,我认为为70-80%就足够的使用案例构建可能更有趣,因为那样你才能真正触及人工智能能力的边界。但我认为我们也在努力提高可靠性。我认为我们将看到越来越多的这类任务。我认为目前,人机协作将是最有趣的地方,因为我认为对于最先进的任务,你真的需要在环中有人。但我确实认为,从长远来看,会有越来越多的任务可以完全自动化。

主持人: 你能详细说说你认为在这种人与人工智能循环协作中,世界会是什么样子吗?因为达里奥的《爱与恩典的机器》一文描绘了一幅非常乐观的图景。我们如何通过这个循环实现这一目标,具体细节是什么?

贾里-德: 我认为我们已经看到一些这样的情况发生了。至少当我和在生物医学研究领域工作的人交谈时,通过适当的协调,我认为现在有可能利用前沿人工智能模型,为药物发现等领域产生有趣且有价值的见解。所以我认为这已经开始发生了。我想其中一个我思考过的方面是,有些智能需要大量的深度,而有些智能需要大量的广度。例如,在数学中,你可以花十年时间来试图证明一个定理,比如黎曼猜想或费马大定理。我认为这有点像解决一个非常具体、非常困难的问题。我认为在很多科学领域,可能在生物学中更多,也许有趣的是在心理学或历史学中,将非常非常大量的、来自许多不同领域的信息整合起来才是关键。我认为人工智能模型在预训练阶段吸收了人类文明的所有知识。因此,我怀疑利用人工智能的这种特性,即它比任何一位人类专家知道得多得多,可以收获很多成果。因此,你可以通过整合许多不同的专业领域,比如在生物学领域,来获取研究的见解。

所以我认为我们在使人工智能更擅长更深层次的任务方面取得了很大进展,比如解决硬编码问题,解决困难的数学问题。但我怀疑在某些领域存在特殊的悬而未决的问题,在这些领域,整合可能没有人类专家拥有的知识,这种智能非常有用。所以我认为这是我期望看到的更多的事情,即利用人工智能的知识广度。

至于它将如何具体展开,我真的不知道。预测未来真的非常非常困难。规模法则为你提供了一种预测未来的方法,它表明这种趋势将会持续下去。我认为我们从长远来看看到的很多趋势,我期望它们会继续下去。我的意思是,经济、国内生产总值,这些类型的趋势是真正可靠的未来指标。但我认为就细节而言,事情将如何实施,我认为这真的非常非常难说。

主持人: 你认为是否有更多开发者可以进入并使用这些新模型构建的具体领域?我的意思是,对于编码任务,已经完成了很多工作。但是,有哪些任务具有更多的新领域,并且正在被当前的模型解锁?

贾里德: 我来自研究背景,而不是商业背景。所以我不知道我有什么特别深刻的见解。但我认为总的来说,任何需要大量技能的地方,并且这项任务主要涉及坐在电脑前,与数据交互。我认为金融行业,那些经常使用Excel表格的人。我认为我期望法律行业也会受到影响,尽管也许法律行业受到更多的监管,需要更多的专业知识作为认可。但我认为所有这些领域都可能是新领域。我认为我提到的另一点是,我们如何将人工智能整合到现有业务中?我认为,当电力出现时,有一个很长的采用周期。而且,比如说,使用电的最早、最简单的方式不一定就是最好的。你想要的不仅仅是用电动机来取代蒸汽机。你想要某种程度上重塑工厂的运作方式。而且我认为,尽可能快地利用人工智能将其整合到经济的各个部分,我预计这里面蕴藏着巨大的潜力。

主持人: 现在,另一个问题是,你接受过广泛的物理学训练,而且你是最早真正观察到这种规模法则趋势的人之一。这可能源于你是一名物理学家,并且看到了自然界中自然发生的所有这些指数现象。这种训练对于你在人工智能领域进行世界一流的研究有何帮助?

贾里德: 我认为从物理学的角度来看,有用的地方在于寻找最大的图景,最宏观的趋势,然后试图使它们尽可能精确。所以,我记得遇到过一些杰出的人工智能研究人员,他们会说诸如“学习正在呈指数级收敛”之类的话。我只会问一些非常愚蠢的问题,比如,你确定它是指数级的吗?这会不会仅仅是幂律?它是二次的吗?这东西到底是如何收敛的?而且这是一个非常愚蠢、简单的问题。但基本上,我认为在尽可能精确地把握你所看到的大趋势方面,有很多成果可以摘取,而且可能仍然有很多。因为那会给你提供很多工具,我不知道。它允许你问,真正推动变革意味着什么?我认为对于缩放定律,最重要的目标是找到一个更好的缩放定律斜率。因为这意味着当你投入更多的计算资源时,你将比其他AI开发者获得越来越大的优势。但在你精确地把握你所看到的趋势之前,你不知道击败它到底意味着什么,你能击败它多少,以及如何系统地知道你是否实现了这个目标。所以,我认为这些就是我使用的工具。不一定非得字面上地应用,比如说,量子场论到人工智能。我认为这有点太具体了。

主持人: 那么,是否存在特定的物理学启发法,比如重整化、对称性,在持续观察或测量这个趋势时,能派上大用场?

贾里德: 如果你观察人工智能模型,你会发现它们很大。神经网络很大。它们有数十亿,现在是数万亿的参数。这意味着它们是由大型矩阵构成的。基本上,研究神经网络非常大情况下的近似值,特别是组成神经网络的矩阵很大的情况,实际上是很有用的。这实际上是物理学和数学中一种众所周知的近似方法。那是已经被应用的东西。但我认为,总的来说,提出非常天真、愚蠢的问题能让你走得很远。我认为人工智能,在某种意义上,就我们训练人工智能模型的当前形式而言,实际上可能只有10到15年的历史。这意味着这是一个非常新的领域。很多最基本的问题还没有得到解答,比如可解释性问题,人工智能模型究竟是如何运作的。所以,我认为在这个层面有很多东西要学习,而不是应用非常、非常花哨的技术。

主持人: 你会应用物理学中的特定工具来进行可解释性研究吗?

贾里德: 我会说,可解释性更像是生物学。它更像是神经科学。所以,我认为这些是相关的工具。那里还有更多的数学知识,但我认为它更像是试图理解大脑的特征。人工智能相对于神经科学的优势在于,你可以真正测量人工智能中的一切。你无法测量大脑中每个神经元、每个突触的活动,但你可以在人工智能中做到这一点。因此,有更多、更多的数据可用于逆向工程,以了解人工智能模型是如何工作的。

主持人: 现在,关于缩放定律的一个方面是,它们在超过五个数量级上都成立,这太疯狂了。这是一个有点反常的问题,但什么样的经验迹象会让你相信曲线正在改变,也许我们正在脱离曲线?

贾里德: 我认为这是一个非常难的问题,对吧,因为我主要使用缩放定律来诊断人工智能训练是否中断。所以,我认为一旦你看到一些东西,并且你发现它非常吸引人,它就会变得非常、非常有趣,可以用来检查它在哪里失效。但我认为我的第一反应是,如果缩放定律失效,那是因为我们在某种程度上搞砸了人工智能训练。也许我们弄错了神经网络的架构,或者训练中存在我们看不到的瓶颈,或者我们使用的算法的精度存在一些问题。所以,我认为至少要花很多功夫才能说服我,至少在这些经验法则的层面上,扩展不再有效,因为在过去5年的经验中,很多时候,当扩展似乎失效时,那是因为我们做错了。

主持人: 有意思。所以,我想接下来要谈论一个非常具体的、紧密相关的问题,那就是保持这条曲线持续发展所需的巨大计算能力。当计算资源变得更加稀缺时会发生什么?你会深入到精度阶梯的哪个层次?你们是否探索像FP4这样的技术?你们是否探索像三元表示这样的技术?你对此有什么看法?

贾里德: 是的。我认为现在人工智能非常低效,因为人工智能蕴含着巨大的价值。因此,解锁最强大的前沿模型具有巨大的价值。因此,像Anthropic这样的公司以及其他公司都在尽可能快地行动,以提高人工智能训练和人工智能推理的效率,并解锁前沿能力。但很多重点实际上在于解锁前沿。我认为随着时间的推移,随着人工智能变得越来越普及,我认为我们将真正大幅降低推理和训练的成本,与我们现在的水平相比。我的意思是,目前,我们看到算法上以及在扩大计算规模和每年推理效率方面,都有大约3倍到10倍的增长。我猜这个笑话是,我们将让计算机回到二进制时代。所以,我认为随着时间的推移,我们将看到更低得多的精度,这是使推理更有效率的众多途径之一。

但总的来说,我们目前在人工智能发展方面非常、非常、非常不平衡。人工智能正在非常迅速地改进。事物正在非常迅速地变化。我们还没有完全实现当前模型的潜力,但我们正在解锁越来越多的能力。所以,我认为人工智能变化不那么快时的平衡状态看起来像是人工智能极其廉价。但很难知道我们是否会到达那个状态。比如,人工智能可能会越来越快地变得更好,以至于智能方面的改进会释放出更多的潜能。因此,我们可能会继续关注这一点,而不是专注于将精度降至FP2。这非常符合杰文斯悖论。

主持人: 随着智能变得越来越好,人们会越来越想要它。这并不是在降低成本,这就是讽刺之处,对吧?

贾里德: 是的,我们肯定已经看到,在某些时候,人工智能变得足够容易获得。也就是说,我认为随着人工智能系统变得越来越强大,能够完成我们越来越多的工作,为前沿能力付费是值得的。所以,我认为我一直有并且将继续有的一个问题是,所有的价值都在前沿吗?或者说,在那些没那么强大但更便宜的系统中,是否存在大量的价值?而且我认为这种时间跨度的图景可能是一种思考方式。我认为你可以做很多非常简单的、小块的任务,但我认为能够使用一个可以端到端完成非常复杂任务的AI模型,而不是要求我们人类来协调一个更笨的模型,将任务分解成非常非常小的片段并将它们组合起来,会方便得多。所以,我确实期望很多价值将来自最强大的模型,但我可能是错的。这可能取决于,而且可能真正取决于AI集成商有效利用AI的能力。

主持人: 对于在座的各位,大家都处于职业生涯的早期,拥有巨大的潜力,你有什么建议,让他们在未来这些模型变得如此强大的情况下保持竞争力?大家应该擅长什么,学习什么,才能继续做好工作?

贾里德: 我认为,正如我所提到的,理解这些模型如何工作,并能够真正有效地利用和集成它们,这具有很大的价值,而且我认为在构建前沿技术方面也具有很大的价值。我不知道,我们可以把时间交给观众提问。

主持人: 让我们把时间交给观众提问。

观众问答

观众: 我有一个关于缩放损失的快速问题。你展示了很多缩放定律都像是线性的,但是我们有指数级的计算能力增长,但我们在缩放定律中只有线性的进展。但在你的最后一张幻灯片上,你展示了你期望突然出现指数级增长,以及我们节省了多少时间。我想问,你为什么认为突然在这个图表上我们是指数级的而不是线性的了?谢谢。

贾里德: 是的,这是一个非常好的问题,我也不知道。我的意思是,关于米的研究发现有点像一个经验性的发现。我倾向于这样考虑这个问题:为了完成越来越复杂、时间跨度更长的任务,你真正需要的是某种自我纠正的能力。你需要能够识别出你制定了一个计划,然后你开始执行这个计划,但每个人都知道我们的计划有点毫无价值,当我们遇到现实时,我们会犯错。因此,我认为决定模型能够完成的任务的时间跨度的很大程度上是它们注意到自己做错了什么并纠正它的能力。而且我认为这不算是很多的信息。仅仅注意到一两次你犯了错误以及如何纠正这个错误,并不一定需要智能发生巨大的变化。但如果你解决了你的错误,也许你会,大概,将任务的视野长度扩大一倍。因为就像与其被困在这里,你会被困在两倍远的地方。所以我认为这就是我所看到的图景,即你可以通过相对适度的改进,来解锁越来越长的视野,改进你理解任务和自我纠正的能力。但这只是,这些只是空谈。我认为经验趋势也许是最有趣的事情,也许我们可以为为什么这个趋势是正确的构建更详细的模型,但大概你的猜测和我的一样好。

观众2:我这边也有一个问题。真是荣幸。所以基本上,在增加时间范围方面,我觉得,我对神经网络的心理模型非常简单。如果你想让它们做某事,你就要用这样的数据来训练。所以如果你想,如果你想增加时间范围,你必须慢慢地获得,例如,验证信号。现在我认为一种方法是通过产品来实现。比如,Claude的代理,然后你使用验证信号来逐步改进模型。现在我的问题是,这对于例如编码来说效果非常好,在编码中你有一个足够好的产品,你可以部署它然后获得验证信号。但其他领域呢?比如在其他领域,我们只是扩大数据标注员的规模来实现通用人工智能,还是有更好的方法?

贾里德: 是的,这是个好问题。我的意思是,当一些怀疑论者问我,为什么我认为我们能够扩展并获得像广泛的人类水平的人工智能时,基本上是因为你所说的。存在某种非常具有操作性的路径,你只是为人工智能模型构建越来越多不同的任务,这些任务越来越复杂,时间跨度越来越长。然后你只是转动曲柄,在那些更复杂、更长的任务上用强化学习进行训练。所以我觉得那是人工智能进展的最坏情况。我的意思是,考虑到在人工智能领域的投资规模,以及我认为人工智能正在创造的价值水平,我认为如果必要的话,人们会这么做。也就是说,我认为有很多方法可以简化它。最好的方法是训练一个人工智能模型来监督和管理,比如用Claude来说明你正在训练什么,当你有一个人工智能模型提供监督,而不仅仅是说,你是否正确地完成了这个极其复杂的任务?比如,你是否成为了教职员工并获得了终身教职?这会花费六年或七年吗?这是否是一个端到端的任务,在七年后,你最终要么获得终身教职,要么没有?这太荒谬了。这是非常低效的,但它可以提供更详细的监督,指出你做得好或做得差。我认为,随着我们能够在这种方式下越来越多地使用人工智能,我们或许能够更有效地训练那些长期任务。而且我认为我们在某种程度上已经在这么做了。

主持人: 我们来回答最后一个问题。

观众3: 是的,我想在此基础上进一步探讨。当你基本上在开发这些任务,然后用强化学习训练它们时,你会尝试使用大型语言模型来创建这些任务吗?比如你用于强化学习的任务,还是仍然使用人工?

贾里德: 很好的问题。我觉得两者都有。我的意思是,很明显,我们尽可能多地使用人工智能来构建任务,比如说,用代码生成任务。我们也会要求人类创建任务。所以基本上是这些事情的混合。我认为随着人工智能变得越来越好,我们希望能越来越多地利用人工智能。当然,这些任务的难度前沿也在不断提高。所以我认为人类仍然会参与其中。好的,谢谢。

主持人: 好的,让我们为贾里德鼓掌。非常感谢。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。