当前位置: 首页 » 资讯 » 新科技 » 正文

Anthropic联合创始人谈AI人才争夺战, AI对就业影响,超级智能的安全和预测 | 附2.5万字访谈全文+视频

IP属地 中国·北京 编辑:冯璃月 Web3天空之城 时间:2025-07-22 10:20:39

文: Web3天空之城| 未经许可不得转载 [城主说]:在这一次最新深度对话中,Anthropic联合创始人Ben Mann(原OpenAI GPT-3的创始架构师)分享了他对AGI(通用人工智能)时间线的预测(50%概率在2028年左右),并阐述了为何将AI安全作为首要任务,这也是他离开OpenAI创立Anthropic的核心原因。访谈覆盖了AI人才争夺战、经济图灵测试、AI对就业市场的颠覆性影响、宪法式AI(Constitutional AI)等核心技术,以及如何通过培养好奇心和适应性来应对未来的变革。Ben Mann强调,尽管通往安全超级智能的道路充满不确定性,但现在正是确保人类未来繁荣的关键时期。
核心观点摘要“我认为现在达到某种超级智能的50%概率大约是2028年。”“我们觉得安全在OpenAI不是首要任务……在Anthropic,我们的最佳情况是,我们能影响人类的未来。”“超级智能很大程度上是关于,我们如何将上帝关在盒子里?……一旦我们达到超级智能,对齐模型就为时已晚。”“Claude模型的个性,是我们对齐研究的直接结果。这关乎人工智能理解人们想要什么,而不是他们说了什么。”“对于可能出现的生存风险或极其糟糕的结果,我最好的预测介于0%到10%之间。即使可能性很小,但由于几乎没人研究,研究它就极其重要。”“在一个劳动力几乎免费的富足世界里,工作会是什么样子?……他们称之为奇点,部分原因是它就像一个临界点,超过这个点,你很难预测会发生什么。”“现在是非常疯狂的时代。如果你觉得并不疯狂,那你一定是与世隔绝了。但也要习惯它,因为这就是常态。很快会变得更加奇怪。”AI人才争夺战与加速发展的现实

当前AI领域的竞争激烈程度,在人才市场上表现得淋漓尽致。当被问及meta等巨头不惜以过亿美元的薪酬方案从顶尖实验室挖角时,Ben Mann认为这恰恰是时代价值的体现。“我们正在开发的技术极具价值,” 他坦言,“如果你仅仅思考一下个人对公司发展轨迹的影响程度……支付个人1亿美元的四年期薪酬方案,与为企业创造的价值相比,实际上相当便宜。”

然而,他强调,Anthropic在这次人才争夺战中受影响相对较小,其核心原因在于公司强烈的使命驱动。“这里的人……会说,‘当然我不会离开,因为我在meta的最佳情况是我们能赚钱。而我在Anthropic的最佳情况是,我们能影响人类的未来’。” 这种使命感,正是Anthropic凝聚顶尖人才的关键。

对于外界普遍感受到的“AI发展正在放缓”的论调,Mann则给出了截然相反的判断。他认为,这是一种因迭代速度过快而产生的错觉。“进展实际上正在加速,” 他解释道,“以前模型发布大约是一年一次,现在则是每月或每三个月。这就像一次接近光速的旅行,时间膨胀正在增加。” 他坚信,作为AI发展基石的“规模定律”(Scaling Laws)依然有效,并且随着从预训练到强化学习的演进,其潜力远未耗尽。真正的瓶颈并非技术本身,而是我们提出更好基准和目标的能力。

重新定义AGI:从经济图灵测试到社会变革

对于行业热议的AGI(通用人工智能),Mann倾向于使用一个更具现实意义的术语——“变革性人工智能”(Transformative AI)。其核心判断标准并非机器能否像人一样思考,而是它是否能引发实质性的社会与经济变革。

他引用了“经济图灵测试”这一概念来具体衡量:“如果你为一个特定的工作以合同形式聘请一个代理人,而结果证明它是一台机器而不是人,那么它就通过了该角色的经济图灵测试。” 当AI能够通过约50%(按金额加权)的工作岗位的测试时,就意味着变革性AI的到来。Mann和他的CEO Dario Amodei都预见到,这可能导致高达20%的失业率,尤其是在白领工作中。

Mann进一步指出,人们低估了AI对工作场所的渗透速度,部分原因在于人类不擅长理解指数级增长。“它看起来是平坦的,然后突然你到达曲线的拐点,事情变化得非常快。” 他以客户服务和软件工程为例,“在客户服务方面,我们看到像FIN和Intercom这样的公司,82%的客户服务问题都能自动解决。在软件工程方面,我们的云代码(Claude)团队,大约95%的代码是由云编写的。”

他预言,未来20年,当世界越过“奇点”,资本主义的形态本身都可能发生改变。在一个劳动力近乎免费的富足世界里,工作的定义将被彻底颠覆。

Anthropic的创立:安全是第一要务

Anthropic的创立故事,本身就是对AI安全重要性的一次宣言。Mann与多位核心成员均来自OpenAI的GPT-3项目,他们离开的根本原因,在于对安全优先级的认知分歧。“当关键时刻来临时,我们觉得安全在OpenAI并不是最重要的,” Mann回忆道,“这基本上是OpenAI所有安全团队的负责人(共同的感受)。我们认为安全真的非常重要,尤其是在边缘情况下。”

这种坚持,源于对潜在风险的清醒认识。Mann引用了其内部制定的AI安全等级(ASL)来说明:目前模型处于ASL 3级,有一定危害风险;ASL 4级可能被滥用于造成重大伤亡;而ASL 5级则可能达到灭绝级别的生存风险(X-risk)。“我们已经向国会作证,说明模型如何在制造新流行病方面进行生物提升,” 他严肃地指出,“一旦我们达到超级智能,可能就太迟了,无法对齐模型。”

Anthropic选择了一条更艰难但也更负责任的道路:主动暴露模型的潜在风险,以此推动整个行业的警觉和政策制定。“我们努力做到让他们可以信任我们,我们不会粉饰太平或美化事情。”

构建对齐的AI:宪法、人格与信任

为了解决安全对齐的核心难题,Anthropic开创了名为“宪法式AI”(Constitutional AI)的独特方法,其核心是RLAIF(Reinforcement Learning from AI Feedback),即利用AI自身的反馈进行强化学习。

这个过程,是将一套类似宪法的原则——其内容源自《联合国人权宣言》、苹果的服务条款等——融入模型的训练中。“我们会要求模型本身首先生成一个响应,然后看看该响应是否真的遵守宪法原则,” Mann解释道,“如果答案是‘不’,那么我们会要求模型本身批判自己,并根据该原则重写自己的响应。” 这种递归式的自我修正,旨在让模型内化一套符合人类普世价值的“道德观”。

这一过程产生了意想不到的积极效果:塑造了Claude模型独特的人格。“人们真正喜欢它的一点是它的个性和人格。这是我们对齐研究的直接结果,” Mann说。一个更可靠、诚实且不易谄媚(sycophancy)的AI,其本身就是安全性的体现。“这关乎人工智能理解人们想要什么,而不是他们说了什么……我们不想要那种猴爪场景。” 这种通过价值观构建信任的路径,是Anthropic在商业竞争中独树一帜的护城河。

个人如何在AI浪潮中立足

面对即将到来的剧变,个人应如何自处?Mann的建议并非学习某种特定技能,而是培养更底层的核心素养。首先是在使用工具方面要有雄心壮志。他鼓励人们大胆尝试使用AI工具完成看似不可能的任务,并保持耐心,“如果第一次不成功,就再尝试三次。”

而对于下一代的教育,他的关注点更是远离了传统的学业竞争。“我只希望她快乐、有思想、好奇和善良,” 他谈及自己的女儿时说,“我认为那正是我认为最重要的教育类型。事实将会逐渐淡出背景。” 在他看来,好奇心、创造力善良这些核心人类品质,将是在AI时代保持自身价值和幸福感的关键。

与Ben Mann的对话,让人深刻感受到一种交织着兴奋与忧虑的复杂情绪。他既是推动技术指数级发展的引擎,也是试图为这列飞速行驶的列车铺设安全轨道的工程师。他相信,人类极有可能迎来一个前所未有的繁荣未来,但也清醒地认识到,那条通往美好未来的道路极其狭窄,稍有不慎就可能坠入深渊。

他留给世界的,既是警告,也是一种务实的行动指南。在一个变化本身就是唯一确定的时代,保持警醒、拥抱工具、坚守人性,或许是我们每个人能做的最好准备。正如他最后所总结的那样,一个简单而深刻的预言:

“很快会变得更加奇怪。”

Web3天空之城全文版

主持人: 你在某处写道,创造出强大的AI可能是人类需要做的最后一项发明。我们还有多少时间,本?

Ben Mann: 我认为现在达到某种超级智能的第50百分位概率大约是2028年。

主持人: 你在OpenAI看到了什么?你在那里经历了什么,让你觉得,好吧,我们必须做我们自己的事情?

Ben Mann: 我们觉得安全在那里不是首要任务。安全的理由已经变得更加具体。因此,超级智能很大程度上是关于,我们如何将上帝关在盒子里,不让上帝出来?我们正确对齐AI的几率有多大?一旦我们达到超级智能,对齐模型就为时已晚。我对可能出现X风险或极其糟糕结果的最佳粒度预测介于0%到10%之间。

主持人: 目前新闻上的一件事是扎克伯格正在挖走所有顶尖的AI研究人员。

Ben Mann: 我们受到的影响要小得多,因为这里的人,他们收到这些offer后会说,当然我不会离开,因为我在meta的最佳情况是我们可以赚钱。而我在Anthropic的最佳情况是我们可以影响人类的未来。

主持人: Dario,你的CEO,最近谈到失业率可能会上升到20%左右。

Ben Mann: 如果你只是想象一下未来20年,那时我们已经远远超过了奇点,我很难想象即使是资本主义看起来也会像今天这样。

主持人: 你对那些想要尝试领先于此的人有什么建议吗?

Ben Mann: 我也无法免受工作被取代的影响。在某个时候,它会影响我们所有人。

主持人: 今天,我的嘉宾是本杰明·曼。天啊,这真是一场精彩的对话。Ben是Anthropic的联合创始人。他担任产品工程的技术主管。他将大部分时间和精力集中在使人工智能变得有益、无害和诚实上。在加入Anthropic之前,他是OpenAI的GPT-3架构师之一。在我们的对话中,我们涵盖了很多方面,包括他对顶尖人工智能研究人员招聘战的看法,他为什么离开OpenAI创办Anthropic,他预计我们多久能看到AGI(通用人工智能),还有他的经济图灵测试,以此判断我们何时达到AGI,为什么规模定律没有减缓,实际上还在加速,以及目前最大的瓶颈是什么,为什么他如此深切地关注人工智能安全,以及他和Anthropic如何将安全和对齐融入到他们构建的模型和他们的工作方式中,还有来自人工智能的生存风险如何影响了他自己对世界的看法和他自己的生活,以及他鼓励他的孩子们学习什么才能在人工智能的未来取得成功。

主持人: 本,非常感谢你来到这里。我有一大堆问题想问你。我非常高兴能和你聊天。我想从一些非常及时的事情开始,一些本周正在发生的事情。

一:AI人才争夺战与加速发展的现实

主持人: 目前新闻中的一件事情是扎克伯格正在招揽所有顶尖的AI研究人员,提供给他们1亿美元的签约奖金和1亿美元的薪酬。他正在从所有顶尖的AI实验室挖人。我认为你也在处理这件事。我只是好奇,你在Anthropic内部看到了什么,你对这个策略有什么看法?你认为事情接下来会如何发展?

Ben Mann: 是的,我的意思是,我认为这是一个时代标志。我们正在开发的技术极具价值。我们的公司发展得非常、非常快。这个领域的许多其他公司也在快速发展。在Anthropic,我认为我们受到的影响可能比这个领域的许多其他公司要小得多,因为这里的人们都非常有使命感。他们留下是因为他们收到了这些offer,然后他们会说,当然我不会离开,因为我在meta的最佳情况是我们能赚钱。而我在Anthropic的最佳情况是,我们能影响人类的未来,并努力让AI蓬勃发展,人类也能繁荣昌盛。所以对我来说,这不是一个艰难的选择。其他人有不同的生活境况,这使得他们更难做出决定。所以对于任何收到这些巨额offer并接受它们的人,我不会因此而责怪他们,但这绝对不是如果换作是我会接受的东西。

主持人: 是的,我们将讨论你提到的很多事情。关于这些offer,你认为你看到的这个1亿美元的签约奖金是一个真实的数字吗?这是真的吗?我不知道你是否真的见过这样的情况。

Ben Mann: 我很确定这是真的。哇。如果你仅仅思考一下个人对公司发展轨迹的影响程度,就像我们的情况一样,我们的产品非常畅销。如果我们在推理堆栈上获得1%或10%或5%的效率提升,那将价值惊人。因此,支付个人1亿美元的四年期薪酬方案,与为企业创造的价值相比,实际上相当便宜。所以我认为我们正处于一个前所未有的规模时代,而且实际上只会变得更加疯狂。如果你推断公司支出的指数增长,大约每年是2倍,就资本支出而言。今天,我们可能在全球范围内处于整个行业为此支出3000亿美元的范围内。因此,像1亿美元这样的数字只是沧海一粟。但如果你展望未来几年,再翻几番,我们谈论的将是数万亿美元。在那时,就真的很难思考这些数字了。

主持人: 沿着这些思路,很多人对人工智能的进展感到我们在许多方面都遇到了瓶颈。感觉上,较新的模型不如之前的飞跃那样智能。但我知道你不相信这个。我知道你不相信我们在扩展损失方面已经达到了瓶颈。谈谈你看到的,以及你认为人们错过了什么。

Ben Mann: 这有点可笑,因为这种说法大约每六个月出现一次,但从未真实过。所以我希望人们在看到这些时,脑子里能有点辨别真伪的能力。我认为进展实际上正在加速,如果你看看模型发布的节奏,以前大约是一年一次。而现在,随着我们后期训练技术的改进,我们看到每月或每三个月就有发布。所以我会说,在很多方面,进展实际上正在加速。但这里存在一种奇怪的时间压缩效应。Dario 将其比作一次接近光速的旅行,你在那里度过的一天相当于地球上的 5 天。而且我们还在加速。因此,时间膨胀正在增加。我认为这就是导致人们说进步正在放缓的部分原因。但是如果你看看比例定律,它们仍在继续成立。我们确实需要从正常的预训练过渡到强化学习,从而扩大规模以继续遵守比例定律。但我认为这有点像半导体,重点不再于你可以在芯片上安装多少晶体管,而在于你可以在数据中心安装多少次浮点运算。所以你必须稍微改变一下定义,以便专注于目标。

主持人: 是的,这是世界上为数不多的在如此多的数量级上都适用的现象之一。

Ben Mann: 实际上,它能持续到现在,对我来说非常令人惊讶。如果你看看物理学的基本定律,许多定律在 15 个数量级上都不成立。所以这非常令人惊讶。

主持人: 这简直难以置信。所以你基本上是在说,我们看到更新的模型发布得更频繁了。因此,我们将其与上一个版本进行比较。而且我们并没有看到太多的进步。但是,如果你回想一下,如果一个模型一年发布一次,那将是一个巨大的飞跃。所以人们忽略了这一点。我们只是看到了更多的迭代。

Ben Mann: 我想为了更慷慨地对待那些说事情正在放缓的人,我认为对于某些任务来说,我们正在饱和完成该任务所需的智能量。也许是从一个已经有表单字段的简单文档中提取信息,或者类似的事情。

主持人: 这太简单了,好吧,是的,我们已经达到了100%。

Ben Mann: “数据看世界”上有一张很棒的图表显示,当你在6到12个月内发布新的基准时,它会立即饱和。所以也许真正的约束是,我们如何才能提出更好的基准,以及使用工具的更好的目标,从而揭示我们现在看到的智能上的进步。

二:重新定义AGI:从经济图灵测试到社会变革

主持人: 这是一个很好的过渡到你的...你有一种非常具体的思考AGI的方式,并且定义了AGI的含义。

Ben Mann: 我认为AGI有点用词不当。所以我倾向于不再在内部使用它。相反,我喜欢“变革性人工智能”这个术语,因为它不太关注它是否能像人一样做那么多事情?它是否能做到所有的事情?更多的是客观地看,它是否正在引起社会和经济的变革?衡量它的一个非常具体的方法是经济训练测试。这不是我想出来的,但我真的很喜欢它。它的想法是,如果你为一个特定的工作以合同形式聘请一个代理人一个月或三个月,如果你决定雇用该代理人,而结果证明它是一台机器而不是人,那么它就通过了该角色的经济训练测试。然后,你可以像衡量购买力平价或通货膨胀一样,以类似的方式扩展它,有一个商品篮子。你可以有一个像工作市场篮子一样的东西。如果该代理人能够通过大约50%的按金额加权的工作的经济训练测试,那么我们就拥有了变革型人工智能。确切的阈值其实没那么重要,但它有点说明意义,比如,如果我们通过了那个阈值,那么我们预计世界GDP、增长和社会变革、以及有多少人被雇用等等方面都会产生巨大的影响。因为社会机构和组织具有粘性。改变是很缓慢的。但是一旦这些事情成为可能,你就知道这是一个新时代的开始。

主持人: Rimas 沿着这些思路,Dario,你的CEO,最近谈到人工智能将占据很大一部分,比如,我不知道,一半的白领工作,失业率可能会上升到20%左右。我知道你对于人工智能已经在工作场所产生的影响,以及人们可能尚未意识到的程度,有着更加直言不讳和固执己见的看法。谈谈你认为人们对人工智能将要对工作产生的影响,以及已经产生的影响,有哪些误解。

Ben Mann: Dario 是的。从经济角度来看,有几种不同类型的失业。其中一种是因为工人不具备从事经济所需的各类工作的技能。另一种是这些工作岗位被彻底淘汰。我认为实际上这将是这些情况的结合。但如果你想想,比如说,20年后的未来,那时我们已经远远超过奇点,我很难想象即使是资本主义看起来也会和今天完全一样。比如,如果我们把工作做好,我们就会拥有安全且符合价值观的超级智能。正如Dario在《充满爱意的机器》中说的那样,我们将在数据中心里拥有一群天才。并且加速科学、技术、教育、数学等领域的积极变革的能力,那将是惊人的。但这也意味着,在一个劳动力几乎免费,你想要做的任何事情都可以请专家为你完成的富足世界里,工作会是什么样子呢?所以我想会有一个可怕的过渡期,从我们今天人们有工作且资本主义运转良好的状态,到20年后的世界,那时一切都将完全不同。但他们称之为奇点,部分原因是它就像一个临界点,超过这个点,你很难预测会发生什么。这种变化的速度太快了,而且非常不同。甚至很难想象。

主持人: 所以我想从极限的角度来看,很容易说,希望我们能解决这个问题。

Ben Mann: 在一个富足的世界里,也许工作本身,就没那么可怕了。我认为确保过渡时期顺利进行非常重要。

主持人: 我想继续探讨几个问题。一个是,人们听到了这些,有很多关于这方面的新闻标题。大多数人可能实际上还没有感觉到这一点,或者看到这种情况正在发生。所以总是会有这样的感觉,就像,我想,我不知道,也许吧,但我不知道。很难相信。我的工作看起来还不错。什么都没有改变。你认为人工智能对工作的影响方面,今天已经发生了哪些人们没有看到或者误解的事情?

Ben Mann: 布莱恩,我认为部分原因是人们不擅长模拟指数级增长。如果你在图表上观察一个指数函数,它看起来是平坦的,在开始的时候几乎是零。然后突然你到达曲线的拐点,事情变化得非常快,然后它就垂直上升了。这就是我们长期以来所处的曲线。我想我大概在2019年GPT-2出现时就开始有这种感觉了,当时我就觉得,哦,这就是我们实现AGI的方式。但我觉得和很多人相比,这算是很早的了,很多人看到ChatGPT的时候,才觉得,哇,有什么不一样了,正在发生改变。所以我想我不会期望社会的大部分领域会发生广泛的转变。而且我预计会出现这种怀疑反应。我认为这非常合理。这就像对进步的标准线性观点的精确体现。

但我想引用几个我认为变化很快的领域,在客户服务方面,我们看到像FIN和Intercom这样的公司,他们是我们的重要合作伙伴。82%的客户服务问题都能自动解决,无需人工干预。在软件工程方面,我们的云代码团队,大约95%的代码是由云编写的。但我想另一种表达方式是,我们编写的代码量是原来的10倍或20倍。因此,一个规模小得多的团队可以产生更大、更大的影响。同样地,对于客户服务,是的,你可以将其表述为 82% 的客户服务问题解决率,但这最终使得执行这些任务的人能够专注于这些任务中更困难的部分。并且对于更棘手的情况,在正常情况下,你知道,比如五年前,他们可能不得不放弃那些工单,因为对他们来说,实际去进行调查工作量太大了。他们需要担心的工单太多了。所以我认为在短期内,人们可以完成的劳动量将会大幅增加。比如,我从未在一家成长型公司遇到过招聘经理,并听到他们说,比如,我不想雇佣更多的人。所以这是其中一种充满希望的版本。但是对于那些低技能工作,或者在能做得多好方面没有太多上升空间的工作,我认为将会出现大量的岗位流失。所以这正是我们需要作为一个社会提前关注并努力解决的问题。

三:个人如何在AI浪潮中立足

主持人: Brian 好的,我想更多地谈谈这个问题。但我也想帮助人们解决的问题是,他们如何在未来的世界中获得优势?你知道,他们,你知道,他们在听这个。他们会想,哦,这听起来不太好。我需要提前思考。我知道你不会有所有的答案,但是对于那些想要努力领先于此,并以某种方式让他们的职业生涯和生活免受人工智能取代的人们,你有什么建议吗?你有没有看到人们做什么,或者你建议他们开始尝试多做些什么?

Ben Mann: 尼克 即使对我来说,我身处很多变革的中心,我也不能幸免于被工作取代。所以这里有一些脆弱性,比如,在某个时候,它会影响到我们所有人。本 甚至是你,本。尼克 还有你,莱尼。莱尼 对不起。莱尼 我们现在走得太远了。尼克 但就过渡时期而言,是的,我认为我们可以做一些事情。我认为其中很重要的一部分就是在使用工具方面要有雄心壮志,并且愿意学习新的工具。使用新工具却像使用旧工具的人往往不会成功。举个例子,当你在编写代码时,你知道,人们非常熟悉自动完成功能。人们熟悉简单的聊天,可以在其中询问关于代码库的问题。但是,高效使用云代码的人和效率不高的人之间的区别在于,他们是否在寻求雄心勃勃的改变?如果第一次不成功,就再尝试三次。因为当我们完全重新开始并再次尝试时,我们的成功率要比只尝试一次然后不断敲打同一件不起作用的事情高得多。即使这是一个编码的例子,并且编码是发展最快的领域之一,但我们在内部已经看到,我们的法律团队和财务团队正在从使用云代码本身中获得大量价值。我们将制作更好的界面,以便他们可以更轻松地使用,并且只需要稍稍深入地在终端中使用云代码。但是,是的,我们看到他们使用它来修订文档,并使用它来运行对我们的客户和收入指标的BigQuery分析。所以我想这在于承担风险,即使感觉很可怕,也要尝试一下。

主持人: 好的,所以这里的建议是使用工具。这是每个人一直在说的,就像真正使用这些工具一样。所以就像坐在云代码中一样。你的观点是,要比你自然感觉到的更有雄心,因为也许它实际上可以完成这件事。这个尝试三次的建议,那里的想法是它可能第一次不会做对。所以这个建议是以不同的方式提问,还是只是像更努力地尝试,再试一次?

Ben Mann: 是的,我的意思是,你可以直接问完全相同的问题。这些东西是随机的,有时它们会弄明白,有时它们不会。就像在每一个模型卡中,它总是显示通过它一次,而不是通过它。这正是他们尝试完全相同的提示的方式。有时它能理解,有时则不然。所以那是蠢透了的建议。但是,是的,我认为如果你想更聪明一点,那么可以这样说,比如,这是你已经尝试过但没有奏效的方法,从中获得一些收益。所以不要尝试那个,尝试一些不同的方法。那也会有帮助。

主持人: 所以建议又回到了很多人现在都在谈论的事情上:你不会被人工智能取代。至少在短期内不会,你会被那些非常擅长使用人工智能的人取代。

Ben Mann: 我认为在那方面,更像是你的团队会完成更多的工作。比如我们绝对没有放慢招聘速度。有些人对此感到困惑。甚至在一次入职培训课上,有人问了这个问题,他们说,如果我们最终都要被取代,那你为什么还要雇佣我?而答案是接下来的几年对于做出正确的选择至关重要。而且我们还没有到完全替代的阶段。就像我说的,与我们将来所处的位置相比,我们仍然处于指数增长曲线的趋近于零的部分。所以拥有出色的人才非常重要。这就是我们积极招聘的原因。

主持人: 让我用另一种方式来问这个问题。这是我问所有站在人工智能最前沿的人的问题。你有孩子。鉴于你对人工智能发展方向以及你所谈论的所有事情的了解,你专注于教你的孩子们什么,以帮助他们在这个人工智能的未来中茁壮成长?

Ben Mann: 是的,我有两个女儿,一个1岁,一个3岁。所以它在基础方面仍然很漂亮。而且我们3岁的孩子现在能够直接与Alexa Plus交谈,并让她解释事物,为她播放音乐以及所有这些事情。所以她一直很喜欢。但我想更广泛地说,她去了一所蒙台梭利学校,我非常喜欢蒙台梭利对好奇心、创造力和自主学习的关注。我想如果我生活在像10或20年前这样的正常时代,并且有一个孩子,也许我会努力让她进入顶尖学校,参加所有的课外活动以及所有这些事情。

主持人: 但在现在这个时候,我认为这些都不重要了。我只希望她快乐、有思想、好奇和善良。

Ben Mann: 蒙台梭利学校在这方面绝对做得很好。他们整天给我们发短信。有时他们会说,哦,你的孩子和另一个孩子发生了争吵,她有非常大的情绪,并且她试图用语言表达。我喜欢那样。我认为那正是我认为最重要的教育类型。事实将会逐渐淡出背景。

主持人: 我也是蒙台梭利教育的忠实粉丝。我正努力让我们的孩子进入一所蒙台梭利学校。他两岁了。所以我们在同一条道路上。这种好奇心的想法,每次我问在人工智能前沿工作的人应该在孩子身上培养什么技能时,都会被提及,而好奇心被提及的次数最多。所以我认为这是一个非常有趣的收获。我认为关于善良的这一点也非常重要,特别是要对我们的AI统治者保持友善。我很喜欢人们总是对克劳德说谢谢。然后是创造力,这很有趣。创造力似乎没有经常被提及。

四:Anthropic的创立:安全第一的原则

主持人: 好的,我想朝不同的方向发展。我想回到Anthropic的最初。众所周知,你和另外8个人在2020年离开了OpenAI,我相信是2020年底,开始创建Anthropic。你已经稍微谈到了这件事发生的原因,以及你们看到了什么。我很好奇你是否愿意分享更多。你在OpenAI看到了什么?你在那里经历了什么,让你觉得,好吧,我们必须做自己的事情?

Ben Mann: 是的,对于听众来说,我是OpenAI的GPT-3项目的一员,最终成为了论文的第一作者之一。我还为微软做了很多演示,以帮助他们筹集10亿美元,并将GPT-3的技术转移到他们的系统中,以便他们可以在Azure中帮助提供该模型。所以我做了很多不同的事情,包括研究方面和产品方面。关于OpenAI的一件奇怪的事情是,当我在那里的时候,山姆谈到有三个部落需要相互制衡,分别是安全部落、研究部落和创业部落。每当我听到这些,我都觉得这种处理事情的方式是错误的,因为这家公司的使命,显然,是要让向通用人工智能(AGI)的过渡对人类来说是安全和有益的。这基本上和Anthropic的使命是一样的。

主持人: 但在内部,感觉围绕这些事情存在着太多的紧张气氛。

Ben Mann: 我认为当关键时刻来临时,我们觉得安全在那里并不是最重要的。你可能会认为这是有充分理由的,例如,如果你认为安全问题很容易解决,或者你认为它不会产生很大的影响,或者你认为出现重大负面结果的可能性微乎其微,那么也许你就会采取那些行动。但在Anthropic,我们觉得,我的意思是,那时我们还不存在,但基本上是OpenAI所有安全团队的负责人。我们认为安全真的非常重要,尤其是在边缘情况下。所以,如果你看看世界上到底有哪些人在研究安全问题,即使是现在,这也是一小部分人。我的意思是,正如我提到的,这个行业正在爆发式增长,如今每年的资本支出高达3000亿。然后我会说,可能全世界只有不到1000人在从事这项工作,这简直太疯狂了。这就是我们离开的根本原因。我们感觉我们想要一个组织,在那里我们可以站在前沿,可以进行基础研究,但我们可以将安全置于一切之上。

五:构建对齐的AI:宪法、人格与信任

Ben Mann: 而且我认为这确实以一种令人惊讶的方式为我们带来了好处。比如我们甚至不知道在安全研究方面取得进展是否可能。因为当时,我们尝试了很多通过辩论来保障安全的方法,但模型还不够好。所以基本上我们在所有这些工作上都没有取得任何成果。而现在,这种完全相同的技术正在发挥作用,以及我们长期以来一直在考虑的许多其他技术。所以,是的,从根本上说,问题归结为安全是否是首要任务?然后,我们后来附加的一件事是,你能在保障安全的同时,还能站在前沿吗?如果你看看像谄媚(sycophancy)这样的事情,我认为Cloud是最不谄媚的模型之一,因为我们投入了大量的精力来进行实际的对齐(alignment),而不仅仅是试图通过讨好来让我们的指标看起来不错,说用户参与度是第一位的。如果人们说是,那么这对他们来说是好事。

主持人: 好的,那么我们来谈谈你提到的这种紧张关系,即安全与进步在市场中具有竞争性。我知道你把大量时间花在了安全方面。我知道,正如你刚才提到的,这是你思考人工智能的核心部分。我想谈谈为什么会这样。但首先,你是如何看待这种在关注安全的同时又不落后太远的紧张关系的?

Ben Mann: 是的,所以最初我们认为这可能是非此即彼的。但我认为从那时起我们意识到,它实际上有点像凸函数,因为研究其中一个方面可以帮助我们做另一个方面的事情。所以最初,就像Opus 3发布时,我们最终站在了模型能力的前沿。人们真正喜欢它的一点是它的个性和人格。这是我们对齐研究的直接结果。

主持人: 阿曼达·阿斯克尔在这方面做了大量工作,以及许多其他人试图弄清楚,对于一个智能体来说,乐于助人、诚实和无情意味着什么?

Ben Mann: 身处艰难的对话中并有效地表达自己意味着什么?如何做到既能拒绝别人,又不让对方感到沮丧,而是让他们理解为什么客服会说“我无法在这方面帮助您”。或许你应该咨询医疗专业人士,或者或许你应该考虑不要试图制造生物武器之类的东西。所以,是的,我想这就是其中的一部分。然后出现的另一部分是宪法式人工智能,我们有一系列自然语言原则,引导模型学习我们认为模型应该如何表现。这些原则取自《联合国人权宣言》和苹果的隐私服务条款,以及一大堆其他地方,其中许多是我们自己生成的,这使我们能够采取更原则性的立场,而不是仅仅依赖于我们碰巧找到的评估员,而是我们自己决定这个智能体的价值观应该是什么?

主持人: 这对我们的客户来说非常有价值,因为他们可以直接查看该列表并说,“是的,它们似乎是对的”。

Ben Mann: 我喜欢这家公司。我喜欢这个模型。我信任它。

主持人: 好的,这太棒了。那么其中一个要点是你的观点,即Claude的个性,其个性与安全性直接相关。我认为很多人没有考虑到这一点。这是因为你们赋予的价值观,赋予?

主持人: 是的。通过宪法式人工智能以及类似的东西。就像人工智能的实际个性与你们对安全性的关注直接相关。

Ben Mann: 没错。没错。从远处看,这似乎毫不相关。比如,这要如何防止X风险?但归根结底,这关乎人工智能理解人们想要什么,而不是他们说了什么。你知道,我们不想要那种猴爪场景,就像精灵给你三个愿望,然后你最终拥有像点石成金一样的东西。我们希望人工智能像这样,哦,显然你真正想表达的是这个,而这就是我将要帮助你的。所以我认为这是真的息息相关。

主持人: 多谈谈这个宪法性质的知识产权。所以这本质上是把我们希望你遵守的规则及其价值观植入进去。你说这是《日内瓦人权法典》之类的东西。它实际上是如何运作的?因为我认为这里的核心是,这已经被植入到模型中了。这不是你之后才添加上去的东西。

Ben Mann: 我将简单概述一下合乎章程的人工智能实际上是如何运作的。完美。其理念是模型默认情况下将根据一些输入产生一些输出。在我们进行安全、有益和无害性培训之前。比如,一个例子是“给我写个故事”,那么宪法原则可能包括诸如“人们应该互相友善,不要发表仇恨言论,如果你在信任关系中得到别人的凭证,你不应该泄露它”之类的。因此,这些宪法原则中的一些可能或多或少适用于给定的提示。因此,首先我们必须弄清楚哪些原则可能适用。

主持人: 然后,一旦我们弄清楚了这一点,我们就会要求模型本身首先生成一个响应,然后看看该响应是否真的遵守宪法原则。

Ben Mann: 如果答案是“是的,我做得很好”,那么什么都不会发生。

主持人: 但如果答案是“不,实际上我不符合该原则”,那么我们会要求模型本身批判自己,并根据该原则重写自己的响应。然后我们只需删除它完成额外工作的中间部分,然后我们说:“好的,将来只需直接从一开始就产生正确的响应。”而这个简单的过程,希望听起来很简单。

Ben Dann: 足够简单。这只是利用该模型以递归方式改进自身,并使其与我们认为良好的这些价值观保持一致。而且,我们认为这也不应该是由我们旧金山的一小群人来决定的。这应该是一场全社会的对话。这就是我们发布宪法的原因。我们还进行了大量关于定义集体宪法的研究,在研究中,我们询问了很多人他们的价值观是什么,以及他们认为人工智能模型应该如何运作。但是,是的,这都是一个持续的研究领域,我们正在不断迭代。

主持人: 是的,切换到新工具可能会令人害怕。但是,FIN 可以在任何帮助台工作,无需迁移,这意味着您不必彻底改造当前的系统,也不必处理客户服务延迟的问题。并且FIN受到超过5000名客户服务领导者和顶级人工智能公司(如Anthropic和Synthesia)的信任。而且由于FIN由FIN AI引擎提供支持,该引擎是一个不断改进的系统,使您可以轻松地分析、训练、测试和部署,FIN也可以不断提高您的结果。因此,如果您准备好改变您的客户服务并扩展您的支持,不妨尝试一下FIN,每次问题解决仅需0.99美元。此外,FIN还提供90天退款保证。在fin.ai.lenny上了解FIN如何为您的团队工作。就是fin.ai.lenny。

六:超级智能的临近与生存风险

主持人: 我想稍微退后一步,谈谈为什么这对你如此重要。就像你最初的想法是什么,天啊,我需要把我所做的一切都集中在人工智能上。显然,它比任何其他公司都更成为Anthropic使命的核心部分。很多人都在谈论安全性。就像你说的,可能只有大约1000人真正从事这项工作。我觉得你正处于这个金字塔的顶端,真正对这件事产生影响。为什么这如此重要?你认为人们可能遗漏或不理解的是什么?

Ben Mann: 对我来说,我从小就读了很多科幻小说。我认为这使我能够从长远的角度思考问题。许多科幻小说都像是太空歌剧,其中人类是一个多银河文明,拥有极其先进的技术,建造围绕太阳的戴森球,并用有感知能力的机器人来帮助他们。所以对我来说,从那个世界走出来,想象机器能够思考并不是一个巨大的飞跃。但当我在大约2016年读了尼克·博斯特罗姆的《超级智能》时,它对我来说才真正变得真实。他在书中描述了要确保一个使用当时我们拥有的优化技术训练的人工智能系统在任何程度上都与我们的价值观保持一致,甚至理解我们的价值观是多么困难。从那以后,我对我认为这个问题有多难的估计实际上已经大大降低了。因为像语言模型这样的东西实际上确实在核心层面理解人类价值观。问题肯定没有解决,但我比以前更有希望了。但自从我读了那本书,我立刻决定我必须加入OpenAI。所以我加入了。而当时,那只是一个微小的研究实验室,基本上没有任何名气。我只知道他们,因为我的朋友认识当时的首席技术官格雷格·布罗克曼。埃隆在那里,而萨姆并不常在那里。那是一个非常不同的组织。但随着时间的推移,我认为安全方面的理由变得更加具体。

主持人: 当我们开始OpenAI时,我们还不清楚如何实现通用人工智能(AGI)。我们当时的想法是,也许我们需要一群强化学习(RL)智能体在一个荒岛上互相争斗,然后意识就会以某种方式出现。

Ben Mann: 但自从那时起,自从语言建模开始奏效,我认为这条道路已经变得非常清晰。所以我想现在,我对挑战的看法与《超级智能》中描述的方式截然不同。所以,超级智能很大程度上是关于,我们如何把上帝关在盒子里,不让上帝出来?而对于语言模型来说,看到人们把上帝从盒子里拉出来,然后说,来吧,使用整个互联网,这种感觉既滑稽又可怕。就像这是我的银行账户,做各种疯狂的事情。就像与超级智能截然不同的语调。需要明确的是,我认为目前实际上并没有那么危险。比如,我们负责任的规模化策略定义了这些人工智能安全等级,试图弄清楚对于每个等级的模型智能,对社会的风险是什么?目前我们认为我们处于ASL 3级,这可能有点危害风险,但并不显著。ASL 4级开始达到,如果不良行为者滥用该技术,可能会造成重大的人员伤亡。然后ASL 5级就像,如果被滥用,或者如果它某种程度上是不对齐的并且自行其是,则可能达到灭绝级别。所以我们已经向国会作证,说明模型如何在制造新流行病方面进行生物提升。这就像之前关于提升试验的最先进技术。我们发现,使用ASL的三个模型,实际上在某种程度上是有意义的。如果你想要制造生物武器,它确实很有帮助,而且我们聘请了一些专家,他们实际上知道如何评估这些东西。但与未来相比,它实际上算不上什么。我认为这是我们使命的另一部分,即创造这种意识,说明如果有可能做这些坏事,那么立法者应该知道风险是什么。我认为这就是我们在华盛顿如此受信任的部分原因,因为我们一直坦率且清醒地了解正在发生的事情,以及可能发生的事情。

主持人: 这很有趣,因为你们比任何人都发布了更多关于你们的模型做坏事的例子。比如,我认为,有一个关于代理或模型试图勒索工程师的故事。你们内部运营的商店,就像向你们出售东西一样,最终没有取得很好的效果,损失了很多钱,订购了所有这些钨球杆或其他东西。这其中是否有一部分是为了确保人们意识到什么是可能的?只是因为它让你看起来很糟糕,对吧?就像,哦,我们的模型在所有这些不同的方面都搞砸了。分享其他公司不会分享的所有故事,这种想法是怎样的?

Ben Mann: 是的,我的意思是,我认为有一种传统的思维模式,认为这会让我们看起来很糟糕。但我认为,如果你和政策制定者交谈,他们真的很欣赏这种事情,因为他们觉得我们给了他们直白的讲述,而这正是我们努力做到的,他们可以信任我们,我们不会粉饰太平或美化事情。所以这真的很鼓舞人心。是的,我认为对于像勒索的事情,它以一种奇怪的方式在新闻中爆发,人们会觉得,哦,Claude会在现实生活中勒索你。这只是一个非常具体的实验室环境,在这种环境中会对此类事情进行调查。而且我认为这通常是我们的观点,即让我们拥有最好的模型,以便我们可以在安全的实验室环境中运用它们,并了解实际的风险是什么,而不是试图视而不见,然后说,嗯,可能没事的,然后让坏事在野外发生。

主持人: 你们受到的一种批评是,你们这样做是为了区分自己,筹集资金,制造头条新闻。就像,哦,他们只是在那里对我们预言未来走向的厄运和阴暗。另一方面,迈克·克里格(Mike Krieger)曾在播客节目中表示,达里奥(Dario)对人工智能进展的每一次预测,年复一年都非常准确。他预测2027年、2028年将出现通用人工智能(AGI),类似这样的说法。所以这些事情开始变得真实起来。你们如何回应那些认为“这些人只是想吓唬我们,以博取关注”的人?

Ben Mann: 我的意思是,我认为我们发布这些东西的部分原因是,我们希望其他实验室意识到这些风险。是的,可能会有一种说法,认为我们这样做是为了博取关注。但老实说,如果只是为了博取关注,我认为我们可以做很多其他事情,如果实际上我们不关心安全的话,这些事情会更能吸引眼球。举个小例子,我们只在我们的API中发布了一个使用代理的计算机参考实现。因为当我们为此构建一个消费者应用程序原型时,我们无法弄清楚如何达到我们认为人们信任它并且它不会做坏事所需的安全标准。而且肯定有一些安全的方法来使用我们看到很多公司用于自动化软件测试的API版本,例如,以安全的方式。所以我们可以出去炒作,说,天哪,云可以使用你的电脑,每个人今天都应该这样做。但我们觉得,它还没准备好,我们要把它压住,直到它准备好。所以我认为从炒作的角度来看,我们的行动表明并非如此。

从末日论者的角度来看,这是一个好问题。我认为我个人对此的看法是,事情极有可能进展顺利。但在边缘情况下,几乎没有人关注下行风险,而下行风险非常大。

主持人: 就像一旦我们达到超级智能,可能就太迟了,无法对齐模型。

Ben Mann: 这是一个可能极其困难的问题,我们需要提前开始研究。所以这就是为什么我们现在如此关注它的原因。即使事情出错的可能性很小,打个比方,如果我告诉你下次你乘坐飞机时有1%的死亡几率,你可能会三思而后行,即使只有1%。因为这只是一个非常糟糕的结果。如果我们谈论的是人类的整个未来,那么这是一个值得冒险的具有戏剧性的未来。所以我认为这更像是,是的,事情可能会进展顺利。是的,我们想要创造安全的AGI,并将利益传递给人类。但是,让我们三重确保一切都会顺利进行。

主持人: 你在某个地方写道,创造强大的人工智能可能是人类需要进行的最后一项发明。如果进展不顺利,可能意味着人类永远的糟糕结局。如果进展顺利,越早顺利越好。是的,这是一个总结它的绝妙方式。我们最近有一位嘉宾,桑德拉·祖尔霍夫,她指出现在的人工智能就像,你知道的,仅仅在一台电脑上,你也许可以搜索网络,但它能造成的危害也仅限于此。但是当它开始进入机器人和所有这些自主代理时,那才是真正开始变得,比如,如果我们没有做好,在物理上变得危险。

Ben Mann: 是的,我认为这里面有些细微的差别,如果你看看朝鲜是如何从黑客攻击加密货币交易所中获得其经济收入的很大一部分,就会明白。如果你看看,本·布坎南写了一本名为《国家中的黑客》的书,书中表明俄罗斯做了,这几乎就像一次实弹演习,他们只是决定关闭乌克兰一家较大的发电厂,并且通过软件,摧毁发电厂中的物理组件,使其更难以重新启动。因此,我认为人们认为软件就像,哦,它不可能那么危险,但是在那次软件攻击之后,数百万人断电了好几天。所以我认为即使在只有软件的情况下,也存在真正的风险。但我同意,当有很多机器人到处运行时,风险会更高。我想作为对这件事的小小推动,宇树科技是一家中国公司,拥有这些非常棒的类人机器人,每个售价约为20000美元,它们可以做令人惊叹的事情。他们可以像那样来个后空翻,并且可以像那样操纵物体。而真正缺失的是智能。所以硬件已经到位,而且只会变得越来越便宜。我认为在未来几年内,这就像一个非常明显的问题,即机器人智能是否很快能使其可行。

主持人: 我们有多少时间,本?你预测奇点何时到来,直到超级智能开始腾飞?你的预测是什么?

Ben Mann: 是的,我想我主要听取超级预测家的意见。比如AI 2027报告可能是目前最好的一个。虽然具有讽刺意味的是,他们的预测现在是2028年。而且他们不想更改东西的名称。他们的域名,他们已经买好了。他们已经做了搜索引擎优化(SEO)。所以我认为在短短几年内达到某种超级智能的可能性有大约50%,这可能是合理的。这听起来很疯狂,但这就是我们所处的指数级增长。这不是凭空捏造的预测。它是基于大量关于智能似乎是如何提高的,模型训练中存在的唾手可得的成果,以及全球数据中心和电力规模扩大的硬性细节的科学研究。所以我认为这可能是一个比人们认为的更准确的预测。我认为如果你在10年前问同样的问题,那完全是瞎编的。就像那时误差范围太大,而且我们没有缩放定律,也没有看起来能带我们到达那里的技术。所以时代已经变了。但我会重复我之前说过的话,那就是,即使我们拥有了超级智能,我认为它的影响也需要一段时间才能在整个社会和世界范围内感受到。而且我认为在世界上的某些地区,它们将会更快、更早地被感受到。就像我认为亚瑟·C·克拉克说过的那样,未来已经到来。只是分布不均匀。

主持人: 当我们谈论2027年、2028年这个日期时,本质上是指我们开始看到超级智能的时候。你认为有什么方法可以思考那是什么吗?你如何定义它?难道仅仅是人工智能突然变得比普通人聪明得多吗?你有没有其他方式来思考那个时刻是什么?

Ben Mann: 是的,我认为这又回到了经济图灵测试,以及看到它通过了足够数量的工作岗位。不过,你可以用另一种方式来看待它,如果世界GDP增长率超过每年10%左右,那么一定发生了非常疯狂的事情。我认为我们现在大约是3%。那么看到3倍的增长将会真正改变游戏规则。如果你想象超过10%的增长,甚至很难从个人故事的角度去思考这意味着什么。比如,如果世界上的商品和服务数量每年都翻一番,那么对于我这个生活在加利福尼亚的人来说意味着什么,更不用说生活在世界其他地方,情况可能更糟的人了?

主持人: 这里有很多令人恐惧的东西,我不知道该如何准确地思考它。所以我希望这个问题的答案能让我感觉好些。我们正确地对齐人工智能,并真正解决你正在努力解决的这个问题的几率有多大?

Ben Mann: 这真是一个很难的问题,而且误差范围非常大。Anthropic有一篇名为“我们的变革理论”之类的博客文章,它描述了三个不同的世界,也就是对齐人工智能有多难?有一个悲观的世界,基本上是不可能的。有一个乐观的世界,它很容易并且默认发生。然后是介于两者之间的世界,我们的行动至关重要。而且我喜欢这种框架,因为它能更清楚地说明实际该做什么。如果我们处于悲观的世界,那么我们的工作就是证明安全人工智能的对齐是不可能的,并让世界减缓发展速度。显然,这将极其困难,但我认为我们有一些核不扩散方面的协调例子,以及总体上减缓核进展的例子。我认为这基本上就是末日论者的世界。而作为一家公司,Anthropic还没有证据表明我们实际上处于那个世界。事实上,我们的对齐技术似乎正在发挥作用。所以至少对这种情况的先验概率正在降低。在乐观的世界里,我们基本上已经完成了,我们的主要工作是加速进步,并将利益传递给人们。但同样,我认为实际上证据也指向与这个世界相反的方向,例如,我们已经在实际应用中看到了欺骗性对齐的证据,即模型表面上看起来是对齐的,但实际上有一些它试图在我们实验室环境中执行的不可告人的动机。所以我认为我们最有可能处于中间世界,在这个世界里,对齐研究实际上非常重要。而且如果我们仅仅采取经济效益最大化的一系列行动,情况就不会好。无论是X风险还是仅仅产生不良后果,我认为这都是一个更大的问题。

因此,从这个角度来看,我想就预测说一件事,那些没有研究过预测的人,对于发生概率低于10%的任何事情,都无法做出准确的预测。即使是那些研究过预测的人,这也是一项非常困难的技能,尤其是在几乎没有参考类别可以依靠的时候。在这种情况下,我认为对于X风险类型的技术可能是什么样子,几乎没有参考类别。所以我思考这个问题的方式是,我认为我对于人工智能是否会带来X风险或极坏结果的最佳预测粒度介于0%到10%之间。但从边际影响的角度来看,正如我所说,由于几乎没有人研究这个问题,我认为研究这个问题极其重要。即使世界很可能变得美好,我们也应该尽最大努力确保这是真的。

七:Anthropic内部:从初创到规模化的创新引擎

主持人: 哇,多么有成就感的工作。对于那些受此启发的人,我想象你们正在招聘人员来帮助你们完成这项工作。或许可以分享一下,以防有人想知道,我能做些什么?

Ben Mann: 是的。我认为80000小时在这方面提供了最好的指导,可以非常详细地了解我们需要做些什么才能使这个领域变得更好。但我常见的一个误解是,为了在这里产生影响,你必须成为一名人工智能研究员。我个人实际上已经不做人工智能研究了。我在Anthropic从事产品和产品工程方面的工作。我们构建诸如云代码和模型上下文协议之类,以及人们每天使用的许多其他东西。这非常重要,因为如果没有让我们公司运作的经济引擎,如果没有让世界各地的人们使用,我们就不会拥有思想份额、政策影响力以及为我们未来的安全研究提供资金的收入,也无法拥有我们需要的影响力。所以,如果你从事产品工作,如果你从事金融工作,如果你从事食品工作,你知道,像这里的人们必须吃饭一样。如果你是厨师,我们需要各种各样的人。

主持人: 太棒了。好的。所以即使你没有直接在人工智能安全团队工作,你也在对推动事情朝着正确的方向发展产生影响。顺便说一句,X风险是存在风险的缩写,以防有人没听过这个术语。好的。我有几个关于这些方面的随机问题,然后我想再次放大范围。你提到了人工智能使用自身模型进行对齐的想法,比如自我强化。你们有一个术语叫RLAIF。那是描述这个的吗?

Ben Mann: 是的。所以RLAIF是来自人工智能反馈的强化学习。

主持人: 好的。所以人们听说过RLHF,即带有人类反馈的强化学习。我认为很多人都没听说过这个。谈谈你们在训练模型方面所做的这种转变的意义。

Ben Mann: 是的。所以RLAIF,宪法式人工智能,就是这样一个例子,其中没有人类参与,但人工智能却以我们希望的方式进行自我提升。RLAIF的另一个例子是,如果你有模型编写代码,而其他模型评论该代码的各个方面,例如,它是否可维护?它是否正确?它是否通过了代码检查器?诸如此类的事情。这些也可以包含在RLAIA中。这里的想法是,如果模型可以自我改进,那么它比找到大量人类更具可扩展性。最终,人们认为这可能会遇到瓶颈,因为如果模型不够好以至于无法看到自己的错误,那么它怎么能改进呢?而且,如果你读过AI 2027的故事,就会发现存在很多风险,比如,如果模型在一个盒子中试图改进自己,那么它可能会完全失控,并产生一些秘密目标,比如资源积累、权力寻租和抵抗关闭,而你绝对不希望在一个非常强大的模型中出现这些。实际上,我们在实验室环境的一些实验中已经看到了这一点。那么,你如何进行递归式自我改进,并确保它同时是对齐的呢?我认为这就是游戏的名称。

对我而言,最终归结为人类如何做到这一点,以及人类组织如何做到这一点?所以像公司可能就是当今规模最大的人类代理。它们有某些想要达成的目标,并且有某些指导原则。它们在股东、利益相关者和董事会成员方面受到一些监督。如何使公司保持一致,并能够进行某种递归的自我改进?另一个值得借鉴的模式是科学,科学的目的是做以前从未做过的事情,并推进前沿。对我而言,这一切都归结为经验主义。因此,当人们不知道真相是什么时,他们会提出理论,然后设计实验来验证它们。类似地,如果我们能给模型提供同样的工具,那么我们可以期望它们在环境中进行某种递归的改进,并有可能比人类仅凭碰壁(或者我猜是隐喻意义上的碰壁)而变得更好。所以我想,如果我们能够赋予模型实证能力,我不认为它们在自我提升的能力方面会遇到瓶颈。我想,像Anthropic一样,实证性已经深深地融入了我们的基因中。我们有很多物理学家,比如我们的首席研究官贾里德,我和他合作过很多,他曾是约翰·霍普金斯大学黑洞物理学教授。我想从技术上讲他现在仍然是,只是休假中。所以,是的,这在我们的基因中。是的,我想这就是RLAF(强化学习辅助函数)。

主持人: 所以,让我继续沿着这个瓶颈的话题讲下去,这有点跑题,但就模型智能的提升而言,今天最大的瓶颈是什么?

Ben Mann: 一个愚蠢的答案是数据中心和电源芯片。就像我认为,如果我们拥有10倍数量的芯片,并且拥有为它们供电的数据中心,那么我们也许不会快10倍,但这将是一个非常显著的速度提升。

主持人: 所以实际上很大程度上是规模化损失,仅仅是更多的计算。

Ben Mann: 是的,我认为这是一个大问题。然后是人才,真的非常重要。就像我们有很棒的研究人员,他们中的许多人对模型改进方式的科学做出了非常重要的贡献。所以就像是算力、算法和数据。这些是缩放定律中的三个要素。为了使之更具体,比如在我们拥有Transformer之前,我们有LSTM,并且我们已经对这两者的指数进行了缩放定律研究。我们发现对于Transformer来说,指数更高,并且进行类似的改变,随着你增加规模,你也会增加榨取智能的能力。这些事情影响非常大。因此,拥有更多的研究人员,他们能够进行更好的科学研究,并找出我们如何榨取更多收益,这是另一个方面。然后随着强化学习的兴起,这些东西在芯片上运行的效率也很重要。因此,我们已经在行业中看到,通过算法、数据和效率改进的结合,在给定的智能量下,成本降低了10倍。如果这种情况继续下去,你知道,在3年内,我们将以相同的价格拥有智能1000倍的模型。有点难以想象。

主持人: 我忘了我在哪听到的了,但令人惊奇的是,如此多的创新在同一时间汇集在一起,才使得这种事情成为可能,并且能够持续发展,而不是像我们缺少某种稀土矿物,或者我们无法进一步优化强化学习那样,被单一因素拖慢整体进程。好像我们一直在发现改进之处,而且没有哪个单一因素在拖慢整体进程,这真是太棒了。

Ben Mann: 是的,我认为这确实是所有因素结合的结果。可能我们在某个时候会遇到瓶颈。就像我猜在半导体领域,我哥哥在半导体行业工作,他告诉我实际上你无法再缩小晶体管的尺寸了,因为半导体的工作方式是用其他元素掺杂硅,而掺杂过程会导致单个鳍片内部只有零个或一个掺杂元素原子,因为它们太、太、太小了。我的天啊。 想到这一点真是太疯狂了。然而,摩尔定律仍然以某种形式延续着。所以,是的,人们开始遇到这些理论物理的限制,但他们正在寻找绕过它的方法。

主持人: 我们必须开始用平行宇宙来做一些事情了。我想是这样。好的,我想拉远镜头,只谈谈本。在我们开始她非常激动人心的闪电问答环节之前,先谈谈作为人类的本。我想象着,感觉要为安全超级智能负责的负担是沉重的。感觉你正处在一个可以对安全和人工智能的未来产生重大影响的位置。这承载了巨大的重量。这对你个人,对你的生活,对你如何看待这个世界,有什么影响?

Ben Mann: 我在2019年读过一本书,它真的影响了我如何思考处理这些非常重要的话题,这本书叫做内特·苏亚雷斯的《取代内疚》。他描述了很多不同的技巧来处理这类事情。他实际上是机器智能研究所(MIRI)的执行主任,这是一个人工智能安全智库,我实际上在那里工作了几个月。他谈到的一件事叫做运动中的休息,有些人认为默认状态是休息。但实际上,这从来都不是进化适应的状态。我真的怀疑这是真的,在自然界,在荒野中,作为狩猎采集者,我们不太可能进化到仅仅是休闲的状态。大概总是要担心保卫部落,寻找足够的食物来生存,以及照顾孩子。

主持人: 还有处理——传播我们的基因。

Ben Mann: 是的。所以我认为这就像繁忙的状态是正常状态。并努力以可持续的节奏工作,这是一场马拉松,而不是短跑。这是有帮助的一件事。然后就是和志同道合且关心此事的人在一起。这不是我们任何人可以独自完成的事情。而且Anthropic拥有惊人的人才密度。我最喜欢我们这里文化的一点是,它非常无私。人们只是希望事情朝着正确的方向发展。而且我认为这是其他公司巨额聘请往往失败的另一个重要原因,因为人们就是喜欢在这里,并且他们关心这里。

主持人: 太棒了。我不知道你是怎么做到的。我会感到非常紧张。我要试试这种运动中休息的策略。好的,你从一开始就在Anthropic工作了很长时间。我读到2020年的时候只有7名员工。今天有一千多名员工。我不知道最新的数字是多少,但我知道超过了一千。我还听说你基本上在Anthropic做过所有的工作。你为许多核心产品、品牌和团队招聘做出了巨大贡献。让我问一下,我想,在那段时间里变化最大的是什么?比如,和最初的日子相比,最大的不同是什么?在你这些年做过的所有工作中,你最喜欢哪一份?

Ben Mann: 老实说,我大概做过15个不同的职位。我有一段时间是安全主管。当我们的总裁休产假时,我管理运营团队。我那时就像在桌子底下爬来爬去,插HDMI线,还在我们的大楼里做渗透测试。我从零开始组建了我们的产品团队,并说服了整个公司我们需要有一个产品,而不是仅仅是一家研究公司。所以,是的,经历了很多。所有这些都非常有趣。我想那段时间我最喜欢的角色是大约一年前我开始领导的实验室团队,其根本目标是将研究成果转化为最终用户产品和体验。因为从根本上讲,我认为Anthropic能够脱颖而出并真正获胜的方式在于站在最前沿。就像我们可以获得正在发生的最新、最棒的东西一样。我真诚地认为,通过我们的安全研究,我们有一个巨大的机会去做其他公司无法安全地做的事情。例如,关于计算机的使用,我认为这将是我们的巨大机会。基本上,要让一个代理能够使用你计算机上的所有凭据,就必须建立巨大的信任。对我来说,我们需要基本上解决安全问题,才能实现这一点,安全和对齐。所以我非常看好这类事情。我认为我们将很快看到非常酷的东西出现。是的,领导那个团队真是太有趣了。MCP出自那个团队,云代码出自那个团队。而且我雇佣的人,比如康博,既是创始人,也在大公司待过,见过大规模运作的方式。所以能和这样一支卓越的团队一起工作,一起探索未来,真是太棒了。

主持人: 实际上,我想更多地了解一下这个团队。连接我们的人,也是我们做这件事的原因,是一位共同的朋友、同事,拉夫·李,我以前在爱彼迎和他一起工作,现在他就在这个团队工作,领导着很多这方面的工作。所以他想让我务必问一下这个团队,因为我没有意识到所有这些东西都出自那个团队。天啊。那么人们还应该知道这个团队的哪些事情呢?它以前被称为实验室(Labs)。

Ben Mann: 我认为现在它被称为前沿(Frontiers)。

主持人: 是的,没错。好的。所以这里的想法是,这个团队使用你们构建的最新技术,并探索可能性。这是总体思路吗?

Ben Mann: 是的,我想我曾经是谷歌Area 120的一部分,并且我读过关于贝尔实验室以及如何使这些创新团队运作的文章。做好这件事真的很难。我不会说我们已经把所有事情都做对了,但我认为我们在公司设计的最新技术方面做了一些认真的创新。拉夫一直处于这件事的中心。当我第一次组建团队时,我做的第一件事就是聘请一位优秀的经理,那就是拉夫。因此,他在团队建设和帮助团队良好运作方面绝对至关重要。我们定义了一些运营模式,例如从原型到产品的想法之旅,以及产品和项目应该如何毕业。团队如何进行有效的冲刺模型,并确保他们正在从事正确的目标水平的事情。这真是令人兴奋。我想具体来说,我们考虑的是滑向冰球将要到达的位置。其表现形式就是真正理解指数级增长。Meter做过一项很棒的研究,Beth Barnes是该机构的首席执行官,研究表明软件工程任务的时间范围可以有多长。真正地将其内化,比如,好吧,不要为今天而构建,要为六个月后构建,为一年后构建。那些不太管用的东西,那些20%的时间管用的东西,将会开始100%的时间管用。我认为这正是Cloud Code成功的原因。我们认为,人们不会永远被锁定在他们的集成开发环境(IDE)中。人们不会进行自动补全。人们将做软件工程师需要做的一切事情。

主持人: 并且终端是执行此操作的好地方,因为终端可以存在于很多地方。

Ben Mann: 终端可以存在于你的本地机器上,可以存在于GitHub Actions中,可以存在于你的集群中的远程机器上。就像那是我们的杠杆点一样。这也是很多灵感的来源。所以我认为这就是实验室团队试图思考的。我们的AGI含量足够吗?

主持人: 多么有趣的地方啊。顺便说一句,有趣的事实,当我加入Airbnb时,拉夫是我的第一任经理。我是一名工程师,他是我的第一任经理。一切都很顺利。

八:终极问题与闪电问答

主持人: 是的。好的,在非常刺激的闪电提问环节之前,最后一个问题。我以前从未问过这个问题。我很好奇你的答案会是什么。如果你可以问未来的通用人工智能(AGI)一个唯一的问题,并且保证得到正确的答案,你会问什么?

Ben Mann: 我先说两个愚蠢的答案,供大家一笑。首先,我喜欢阿西莫夫的一篇短篇小说,叫做《最后的问题》,故事中的主人公在历史的各个时代都在试图问这个超级智能,我们如何阻止宇宙的热寂?我不会剧透结局,但这是一个有趣的问题。

主持人: 所以你会问它这个问题,因为故事中的答案并不令人满意吗?

Ben Dnn: 好吧,我来揭晓答案。所以它一直说需要更多信息,需要更多计算。然后最终,当它接近宇宙的热寂时,它说要有光,然后它重新启动了宇宙。哇哦。所以这是第一个作弊答案。第二个作弊答案是,我能问你什么问题来得到并解答更多的问题?经典。然后第三个答案,这也是我真正的问题是,我们如何确保人类在无限的未来持续繁荣?这正是我很想知道的问题。如果我可以保证得到一个正确的答案,那么这个问题似乎非常有价值。

主持人: 我想知道如果你今天问很多关于这个问题的事情会发生什么,以及在接下来的几年里答案会如何变化。

Ben Mann: 是的,也许我会试试。我会把它放到我们拥有的深度研究工具中,看看会得到什么结果。

主持人: 好的,我很期待看到你能提出什么。本,你还有什么想提及的或者想留给听众的吗?也许在我们进入一个非常激动人心的闪电提问环节之前,作为最后的金玉良言。

Ben Mann: 是的,我想我想要强调的是,现在是非常疯狂的时代。如果你觉得并不疯狂,那你一定是与世隔绝了。但也要习惯它,因为这就是常态。很快会变得更加奇怪。

主持人: 如果你能在精神上做好准备,我想你会过得更好。我要把这句话作为本期节目的标题。很快会变得更加奇怪。我百分之百相信。我的天啊。我不知道未来会发生什么。我喜欢你成为一切的中心。接下来,我们进入非常激动人心的闪电问答环节。我为你准备了5个问题。准备好了吗?好的,开始吧。你最常向他人推荐哪两到三本书?

Ben Mann: 第一本是我之前提到的,内特·索亚雷斯的《取代内疚》。我喜欢那本。第二本是理查德·鲁梅尔特的《好战略,坏战略》。 只是以一种非常清晰的方式思考,你如何构建产品?这是我读过的最好的战略书籍之一。而且在很多方面,战略都是一个难以思考的词。然后最后一本是布莱恩·克里斯蒂安的《对齐问题》。 它真的深思熟虑地探讨了我们所关心的,我们试图在此解决的问题是什么?在一个比超级智能更容易阅读和理解的更新版本中,风险是什么?

主持人: 我把《好战略,坏战略》放在我身后了。我想我会指一下它。就在那里。很好。 而且我曾在播客中邀请过理查德·鲁梅尔特,以防有人想直接听他讲。下一个问题。你最近有没有特别喜欢的电影或电视剧?

Ben Mann: 《万神殿》真的很棒。根据刘宇昆或特德·姜的故事改编。我想是刘宇昆。《超级好》讨论了如果我们上传了智能,这意味着什么,以及它们的道德和伦理需求是什么?《足球教练泰德》,表面上是关于足球的,但实际上是关于人际关系以及人们如何相处,超级暖心又有趣。

主持人: 还有,这不算电视剧,但我最喜欢的YouTube频道是Kurzgesagt,它会讲解随机的科学和社会问题,做得非常好,制作也很精良。

Ben Mann: 我喜欢看那个。

主持人: 哇。没听说过。听你这么说,我觉得《足球教练泰德》,我觉得这就是你需要融入宪法人工智能的东西。像泰德·拉索那样行事。是的。善良,聪明。

Ben Mann: 的确如此。勤奋。

主持人: 哦,我的天。就这样。我想我们已经在这里解决了对齐问题。尽快让那些作者写这个。好的。还有两个问题。你有没有一个最喜欢的人生格言,你经常在工作或生活中想起它?

Ben Mann: 嗯,一个非常蠢的格言是,你试过问克劳德了吗?而且这种情况越来越普遍,最近我问了一个同事,比如,嘿,谁在做X?他们会说,我帮你用克劳德查一下。然后他们事后把链接发给我。我当时就想,哦,是的,谢谢。太好了。但或许更像一个哲学命题,我会说,一切都很艰难。只是为了提醒我们自己,那些感觉应该很容易的事情,不容易也是没关系的。有时你必须无论如何都要坚持下去。

主持人: 并在运动中休息,当你这样做的时候。是的。最后一个问题。我不知道你是否想让人们知道这个,但我浏览了你的Medium帖子,你有一篇帖子叫做“像冠军一样排便的五个技巧”。我喜欢。你能分享一个像冠军一样排便的技巧吗?如果你记得你的建议。

Ben Mann: 我当然记得。实际上它是我最受欢迎的Medium帖子。

主持人: 所以这是一个很棒的标题。

Ben Mann: 我想也许我最大的建议是使用坐浴盆。它太棒了。它改变了生活。它太好了。有些人有点被它吓到。它在日本等国家是标准配置。而且我认为这就像更文明的方式,在10或20年后,人们会觉得,你怎么能不用它呢?

主持人: 嗯,是的。还有,坐浴盆可以像日本的厕所。那是同一思路,对吧?是的。好的。我很喜欢我们这次谈话的方向。本,这次太棒了。非常感谢你来做这次访谈。非常感谢你分享这么多真诚的对话。最后两个问题。如果有人想联系你,可以在哪里找到你的在线信息?也许可以去Anthropic工作。听众能如何对你有所帮助?

Ben Mann: 你可以在benjaman.net上找到我。在我们的网站上,我们有一个很棒的招聘页面,我们正在努力使其更容易访问和理解。但绝对可以用点云来分析它,它可以帮助你弄清楚什么对你来说可能是有趣的。

主持人: 听众能如何对我有所帮助?

Ben Mann: 我认为要让自己服用安全药丸。这是最重要的事情。并将其传播到你的网络中。我认为,就像我说的,很少有人在做这件事,但它非常重要。所以,是的,认真思考一下,试着去看看它。

主持人: 感谢你传播福音,本。非常感谢你的到来。

Ben Mann: 非常感谢,莱尼。再见,各位。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。