|未经许可不得转载星标本号获取最新顶级认知|
![]()
整理: Web3天空之城
城主说| 知名科技播客Lenny's Post最新对话了被誉为“人工智能教母”的李飞飞博士。李飞飞最新世界模型 Marble刚刚圈子里小小刷了屏. 她在这次最新专访里分享了人工智能从“寒冬”走向爆发的历史,特别是她开创性的ImageNet项目如何成为引爆深度学习革命的火花。访谈探讨了当前AI技术的局限性,并引出了超越语言模型的下一个前沿——世界模型与空间智能。李飞飞还介绍了她创立的公司World Labs及其首款产品Marble,并就机器人的未来、创始人的心路历程以及以人为本的AI发展理念分享了深刻见解。
在深入探讨之前,以下是本次对话的核心观点:
• “大数据(ImageNet)、神经网络算法和GPU,这三者的结合是现代人工智能的黄金配方。快进到ChatGPT时刻,它仍然使用了这三种成分。”
• “超越语言,连接具身人工智能(即机器人技术)和视觉智能的关键,是对世界理解的空间智能。这就是世界模型。”
• “机器人更接近于自动驾驶汽车,而不是大型语言模型。自动驾驶汽车是在二维表面上运行的金属盒子,目标是不接触任何东西。机器人是在三维世界中运行的三维物体,目标是接触事物。”
• “人工智能中没有任何东西是人为的。它受人启发,由人创造,最重要的是,它影响着人。无论人工智能现在或将来做什么,都取决于我们。”
• “任何技术都不应该剥夺人的尊严。人类的尊严和自主性应该成为每项技术的开发、部署以及治理的核心。每个人都在人工智能中扮演着角色。”
完整视频:
时间戳章节:
00:00:00 人工智能的演进:AI教母的乐观视角与负责任的个人行动
00:09:37 追溯AI历史:从“寒冬”到ImageNet的诞生与深度学习的基石
00:23:53 超越AGI:当前AI的局限、创新需求与空间智能世界模型的核心价值
00:40:45 具身智能的挑战:数据、物理系统与世界实验室Marble模型的问世
00:50:52 Marble的实际应用、3D模型与视频的区别以及创始人的竞争警觉 01:04:47 事业选择的无畏精神:创办HAI,聚焦使命与人工智能的仁慈框架
走出“AI寒冬”:ImageNet的诞生与现代AI的黄金配方
今天,每一家公司都争相标榜自己为“AI公司”,但在不到十年前,情况却截然相反。李飞飞回忆起那段时期,语气中带着一丝感慨。“在2015年中到2016年中这段时间,一些科技公司避免使用‘人工智能’这个词,因为他们不确定人工智能是否是一个负面词汇。大约从2017年开始,公司才开始自称为人工智能公司。”
这种转变的背后,是一场由数据点燃的革命,而李飞飞正是那个点火人。在21世纪初,AI领域正处于所谓的“寒冬”,研究人员拥有各种精巧的数学模型,却普遍面临一个痛点:缺乏足够的数据进行训练。作为一名年轻的教授,李飞飞敏锐地意识到,人类的学习本身就是一个大数据过程。“我突然意识到,人类学习以及进化实际上是一个大数据学习过程。要使人工智能栩栩如生,一个非常关键但被忽视的要素就是大数据。”
基于这一洞察,她和她的学生在2006年启动了一个雄心勃勃的项目——ImageNet。他们的目标是为机器提供海量的、带有标签的图像数据,模拟人类孩子通过观察世界来学习的过程。经过艰苦卓绝的努力,他们创建了一个包含1500万张图像、覆盖22000个概念的庞大数据库,并将其开源。
转折点发生在2012年。由杰夫·辛顿(Geoff Hinton)教授领导的多伦多大学团队,利用ImageNet的数据、两块英伟达的游戏GPU和一种深度神经网络算法,在当年的ImageNet挑战赛中取得了颠覆性的成果。这一刻,被广泛认为是现代AI的“宇宙大爆炸”时刻。“而这三者的结合,即技术、大数据、神经网络和GPU,是现代人工智能的黄金配方,” 李飞飞强调,“快进到人工智能的公共时刻,也就是ChatGPT时刻,如果你看看将ChatGPT带到世界上的成分,它仍然使用了这三种成分。” 从两块游戏GPU到如今成千上万的算力集群,这个“黄金配方”至今仍在驱动着整个行业。
AI的现状与下一个前沿:超越语言的世界模型
尽管大型语言模型(LLM)取得了惊人的成就,但李飞飞清晰地看到了其能力的边界。她指出,当前最先进的AI仍然无法完成许多在人类看来理所当然的任务。“今天,你拿一个模型,让它运行一段包含几个办公室房间的视频,然后要求模型数一下椅子的数量。这是幼儿就能做到的事情,而人工智能却做不到。” 更不用说像牛顿那样,从观察中推导出普适的物理定律,或是拥有与人类共情的情感智能。
在她看来,AI的创新远未结束,而下一个重大的突破口在于超越文本,进入对物理世界的理解。“人类已经利用我们的空间智能和对世界的理解来做了很多事情,而这些事情超越了语言,” 她解释道,“除了语言之外,连接额外智能的关键,以及连接具身人工智能(即机器人技术),连接视觉智能的关键,是对世界理解的空间智能。那就是世界模型。”
世界模型,顾名思义,是能够理解、推理、交互并创造三维乃至四维(包含时间)世界的基础模型。它不仅是实现高级机器人智能的关键缺失环节,也将在科学发现、设计创造等领域极大地增强人类自身的能力。正如沃森和克里克需要凭借空间想象力,从一张二维X光照片中推导出DNA的三维双螺旋结构一样,空间智能是人类认知中不可或缺的一环。李飞飞相信,AI辅助的空间智能将释放出巨大的潜力。
Marble发布:一个人人皆可创造的3D世界
为了将“世界模型”的构想变为现实,李飞飞创立了World Labs公司,并于近期发布了其首款产品——Marble。这是一款革命性的应用,它允许用户通过简单的文本或图像提示,生成一个可以自由探索和互动的、完整的3D世界。
“我们花了一年多的时间来构建世界上第一个可以输出真正3D世界的生成模型,” 李飞飞介绍道。Marble与Sora等视频生成模型有着本质区别。视频是被动观看的二维流,而Marble生成的是一个具有内在三维结构、可导航、可交互的空间。“我们真的希望创作者、设计师、开发者能够掌握一个可以为他们提供具有三维结构的世界的模型,以便他们可以将其用于他们的工作。”
Marble的应用场景已经迅速涌现。在电影虚拟制作领域,它能将制作周期缩短40倍;游戏开发者可以利用它快速生成多样化的游戏环境;机器人研究人员能用它创建丰富的模拟场景以训练AI代理。一个心理学家团队甚至联系他们,希望用Marble为患者创建特定的沉浸式环境,用于心理治疗研究。这恰恰印证了一个经典的创新定律:“下一个伟大的事物最初会让人觉得像个玩具。”
机器人的挑战与“苦涩的教训”
机器人被普遍视为AI的下一个重要落点,而世界模型正是为其打造“大脑”的关键。然而,通往通用机器人的道路充满挑战。AI领域有一个著名的“苦涩的教训”(The Bitter Lesson),即拥有海量数据的简单模型最终总能胜过拥有较少数据的复杂模型。但李飞飞指出,这个教训无法简单地复制到机器人领域。
最大的障碍在于数据。“语言模型拥有一个完美的设置,它们的训练数据是单词,最终产出的也是文字。但在机器人技术中,你希望获得的是行动,但你的训练数据(如网络视频)缺乏在3D世界中的行动。” 这种训练目标与数据形态之间的错位,是机器人学习的核心难题。
更重要的是,机器人是一个物理系统。“机器人更接近于自动驾驶汽车,而不是大型语言模型,” 李飞飞犀利地指出,“自动驾驶汽车是在二维表面上运行的金属盒子,目标是不接触任何东西。机器人是在三维世界中运行的三维物体,目标是接触事物。” 从2005年第一辆自动驾驶原型车诞生至今近20年,我们仍未完全解决这个问题。机器人的复杂性远超于此,这意味着它的发展将是一场涉及硬件、软件、供应链和应用场景的漫长征程。
以人为本:AI的终极责任与未来愿景
在推动技术前沿的同时,李飞飞始终将“人”置于中心。她联合创办了斯坦福大学“以人为本人工智能研究所”(HAI),致力于为AI的发展构建一个以人类福祉为导向的框架。“人工智能中没有任何东西是人为的,” 她在国会作证时如是说,“它受人启发,由人创造,最重要的是,它影响着人。”
她坚信,技术本身是双刃剑,其最终走向完全取决于人类的选择。面对各行各业普通人“AI会取代我的工作吗?”的普遍焦虑,她的回答充满了力量和乐观。“任何技术都不应该剥夺人的尊严。人类的尊呈和自主性应该成为每项技术的开发、部署以及治理的核心。”
她鼓励艺术家拥抱AI作为增强创造力的工具,鼓励农民和护士等所有公民积极参与到AI发展的社会讨论中,确保技术被用于解决真实世界的问题,而不是加剧不平等。“非常重要的是,即使像我这样的技术人员也真诚地认为每个人都在人工智能中扮演着角色,” 李飞飞总结道。
从点燃深度学习革命的火花,到构建理解物理世界的“世界模型”,再到倡导以人为本的治理框架,李飞飞的旅程始终贯穿着一个简单的信念:科技的终极目标,是增强而非取代人类,是服务于全人类的尊严与共同的未来。
web3天空之城全文整理版 序幕:人工智能的乐观主义者
Lenny: 今天我的嘉宾是李飞飞博士,她被称为人工智能教母。李飞飞一直在许多引发我们目前正在经历的人工智能革命的最大突破的核心,并对此负责。她率先创建了ImageNet,这基本上是她意识到人工智能需要大量的干净标签数据才能变得更聪明。这个数据集成为突破口,促成了当前构建和扩展人工智能模型的方法。她曾任谷歌云的首席人工智能科学家,一些最早的重大技术突破就源于此。她曾任斯坦福大学人工智能实验室(SAIL)的主管,许多最杰出的人工智能人才都出自那里。她还是斯坦福大学以人为本人工智能研究所的联合创始人,该研究所在人工智能的发展方向上发挥着至关重要的作用。她还曾担任Twitter的董事会成员。她被《时代》杂志评为人工智能领域100位最具影响力的人物之一。她还在联合国顾问委员会任职,我可以继续说下去。
在我们的谈话中,李飞飞简要地分享了人工智能领域如何发展到今天的历史,包括一个令人震惊的提醒,即在9到10年前,自称是一家人工智能公司基本上是对你品牌的丧钟,因为没有人相信人工智能真的会奏效。今天,情况完全不同了。每家公司都是一家人工智能公司。我们还聊了她对人工智能未来如何影响人类的看法,当前技术能带我们走多远,以及她为何如此充满激情。关于构建世界模型,以及世界模型到底是什么。最令人兴奋的是,世界上首个大型世界模型Marble的发布,它正好在这个播客发布时推出,任何人都可以访问marble.worldlabs.aI来体验。这太疯狂了。一定要去看一下。李飞飞非常了不起,但就她对世界的影响而言,她获得的关注还远远不够,所以我很高兴能邀请到她,并与更多人分享她的智慧。
飞飞,非常感谢你的到来,欢迎来到播客节目。
李飞飞: 我很高兴来到这里,莱尼。我更高兴能邀请你来。
Lenny: 能和你聊天真是太好了。我有很多想和你聊的。你一直处在我们现在看到的这场人工智能爆发的中心。我们将讨论许多历史,我认为很多人甚至不知道这件事是如何开始的。但首先让我念一段《连线》杂志关于你的引言,以便让人们了解一下。在介绍中,我会分享你所做的所有其他史诗般的事情,但我认为这是一种很好的方式来设定背景。费伊·费伊是极少数科学家的其中之一,这个群体可能小到足以围坐在厨房餐桌旁,他们对人工智能最近的显著进步负有责任。很多人称你为人工智能教母。而且与许多人工智能领导者不同,你是一位人工智能乐观主义者。你不认为人工智能会取代我们。你不认为它会夺走我们所有的工作。你不认为它会杀了我们。所以我想从这里开始会很有趣。你对人工智能将如何影响有什么看法?随着时间的推移,对人类的影响。
李飞飞: 是的。Lenny,我先说明白。我不是一个乌托邦主义者。所以并不是说我认为人工智能不会对工作或人们产生任何影响。事实上,我是一个人道主义者。我相信人工智能目前或未来所做的一切都取决于我们。这取决于人们。
所以我确实相信科技对人类来说是净收益。如果你纵观文明的漫长进程,我认为我们是,而且从根本上说,我们是一个创新的物种,如果你从几千年前的书面记录到现在来看,人类一直在创新自身,创新我们的工具。随之而来,我们让生活变得更好,让工作变得更好,我们建设文明。而且我确实相信人工智能是其中的一部分。这就是乐观的来源。来自。但每项技术都是一把双刃剑。如果我们作为一个物种、作为一个社会、作为一个社区、作为个体,没有做正确的事情,我们也会把事情搞砸。
Lenny: 这里有一句话。我认为这是你在国会演讲的时候说的。人工智能没有什么是人为的。它是受人启发的。它是人创造的,最重要的是,它影响着人们。我那里没有什么问题,但是多么棒的一句话啊。
李飞飞: 我感触很深。我从二十多年前就开始研究人工智能,并且在过去的二十年里一直在带学生。几乎每个毕业的学生,我都会提醒他们,当他们从我的实验室毕业时,他们的领域被称为人工智能,但它没有任何人为的成分。
Lenny: 回到你刚才提出的关于这完全取决于我们,关于这一切将走向何方,你认为我们需要做对的是什么?我们需要做对的是什么。我们如何让事物走上正轨?他们知道这是一个非常难回答的问题,但到底应该怎样,你的建议是什么?你认为我们应该怎么做?比如我们有多少时间?我们如何对齐人工智能?
李飞飞: 所以我认为无论我们做什么,人们都应该是有责任感的个体。这是我们教导孩子们的,也是我们作为成年人需要做的,无论你参与人工智能开发、人工智能部署还是人工智能应用的哪个环节?而且很可能我们中的许多人,尤其是作为技术人员,身兼数职,我们应该像有责任感的个体一样行事,并且关心这件事,实际上要非常关心这件事。我认为今天每个人都应该关心人工智能,因为它将影响你的个人生活。它将影响你的社区,它将影响社会和未来一代。作为负责任的人关心它,是第一步,也是最重要的一步。
走出“AI寒冬”
Lenny: 好的。所以让我,让我实际上退一步,回到人工智能的开端。大多数人开始听说并关注人工智能,就是它今天被称为的样子。我不知道,几年前ChatGPT出现的时候,也许是三年前。
李飞飞: 三年前,还差一个月就三年了。
Lenny: 好的。那就是ChatGPT的出现吗?这是你心目中的里程碑吗?你想到的?好的,明白了。我完全同意你的看法。但很少有人知道,人们为此已经努力了很长时间。那时它被称为机器学习,还有其他的术语,而现在一切都被称作人工智能。曾经有一段很长的时间,很多人都在为此努力。后来就出现了人们所说的“人工智能寒冬”,那时人们几乎放弃了。大多数人都放弃了,觉得这个想法行不通。而你的工作实际上是将我们从人工智能寒冬中带出来的火花,并且是直接的。你要对现在这个我们只谈论人工智能的世界负责,正如你刚才所说,它将影响我们所做的一切。所以我觉得听听你的看法会很有趣,比如ImageNet之前的世界是什么样的,你做了哪些工作来创建ImageNet,为什么这如此重要,以及之后发生了什么。
李飞飞: 对我来说,很难记住人工智能对每个人来说都是如此新鲜的事物,因为我整个职业生涯都在人工智能领域度过。对我来说,看到我从青少年时期就开始的个人好奇心。而且现在已经成为我们文明的变革力量,这让我非常满足。它通常是一种文明级别的技术。所以,那段旅程大约有30年或20多年,20年以上。这真是令人非常满意。
那么我到底是从哪里开始的呢?我甚至不是第一代人工智能研究员。第一代实际上可以追溯到50年代和60年代。而且,艾伦·图灵在40年代就超越了时代,大胆地向人类提出了一个问题:我们能否,是否存在有思维的机器,当然,他有一种特定的方法来测试这个概念。即思维机器,也就是一个对话式聊天机器人,按照他的标准,我们现在就拥有一台思维机器。
Lenny: 但这只是一个更具轶事性的灵感。
李飞飞: 这个领域真正开始于50年代,当时计算机科学家们聚集在一起,研究如何使用计算机程序和算法来构建这些程序,这些程序可以做那些只有人类认知才能做的事情。那么,这就是开端和奠基者,达特茅斯学院,1956年的研讨会。我们有约翰·麦卡锡教授,他后来到了斯坦福大学,他创造了“人工智能”这个术语。在50年代、60年代、70年代和80年代,那是人工智能探索的早期阶段。我们有逻辑系统,我们有专家系统。我们还有对神经网络的早期探索。
然后到了80年代末、90年代以及21世纪初。大约20年的时间实际上是机器学习的开端。这是计算机编程和统计学之间的结合。这种结合为人工智能带来了一个非常非常关键的概念,那就是纯粹基于规则的程序无法解释我们想象中计算机能够实现的巨大认知能力。所以我们必须使用机器来学习模式。一旦机器能够学习这些模式,它就有希望做更多的事情。例如,如果你给它三只猫,希望不仅仅是机器能够识别这三只猫。希望是机器能够识别第四只猫、第五只猫、第六只猫以及所有其他的猫。这是一种对人类和有意义的动物来说至关重要的学习能力。而且,我们,我们作为一个领域,意识到,我们知道,机器学习。
以上是直到21世纪初的情况。我实际上是在2000年进入人工智能领域的。那是我在加州理工学院开始攻读博士学位的那一年。所以我算是第一代机器学习研究人员之一。我们已经在研究机器学习的概念,特别是神经网络。我记得我在加州理工学院上的第一门课程之一就叫做神经网络。但它非常非常,但它非常,它仍然处于所谓的“人工智能寒冬”之中,这意味着公众不太关注它。没有那么多资金,但也有很多想法涌现。
Lenny: 很多人称你为人工智能教母。你所做的工作实际上是带领我们走出人工智能寒冬的火花。
李飞飞: 在2015年中到2016年中这段时间,一些科技公司避免使用“人工智能”这个词,因为他们不确定人工智能是否是一个负面词汇。大约从2017年开始,公司开始自称为人工智能公司。
Lenny: 有这么一句话,我想这是你在国会作报告时说的。人工智能中没有任何人工的东西。它的灵感来源于人。它是人创造的,最重要的是,它影响着人。
李飞飞: 并非我认为人工智能不会对工作或人产生影响。事实上,我相信无论人工智能现在或将来做什么,都取决于我们。这取决于人们。我确实相信技术对人类来说是净收益,但我认为每项技术都是一把双刃剑。如果我们作为一个社会,作为个人,没有做正确的事情,我们也会把事情搞砸。
ImageNet的诞生与现代AI的黄金配方
Lenny: 你有这种突破性的洞察力,即,我们可以训练机器像人类一样思考,但只是缺少人类作为孩子必须学习的数据。
李飞飞: 我认为有两件事发生在我身上,使我自己的职业生涯与现代人工智能的诞生如此接近,那就是我选择通过视觉智能的视角来看待人工智能,因为人类是高度视觉化的动物。我们稍后可以多谈一点,但我们的大部分智能是建立在视觉、感知、空间理解之上的,而不仅仅是语言本身。我认为它们是互补的。所以我选择关注视觉智能,在我的博士和早期教授生涯中,我和我的学生们都致力于解决一个北极星问题,那就是解决物体识别问题,因为它是感知世界的基石,我们在世界各地进行解释、推理,并在或多或少在物体层面与世界互动。我们不是在分子层面与世界互动的。我们不会像有时那样与世界互动,但我们很少这样做,例如,如果你想拿起一个茶壶,你不会说,好的,这个茶壶由一百块瓷器组成,让我来处理这100块瓷器。你把它看作一个物体并与之互动。所以物体真的非常重要。所以我是最早将此识别为北极星问题的研究人员之一。
但发生的事情是,作为一名人工智能的学生,一名人工智能的研究人员,我一直在研究各种数学模型,包括神经网络、贝叶斯网络,包括许多许多模型。存在一个独特的痛点,那就是这些模型没有可供训练的数据。作为一个领域,我们如此专注于这些模型,但我突然意识到,人类学习以及进化实际上是一个大数据学习过程。人类通过大量的经验来学习,不断地学习,而进化实际上是一个大数据学习过程。如果你着眼于时间,动物们在体验世界的过程中进化。所以 我的学生和我推测,要使人工智能栩栩如生,一个非常关键但被忽视的要素就是大数据。
然后我们在2006年、2007年开始了ImageDap项目。我们雄心勃勃。我们想获取整个互联网上关于物体的图像数据。现在,诚然,当时的互联网比现在小得多。所以我觉得这个雄心壮志至少不算太疯狂。现在,认为几个研究生和一个教授就能做到这一点,完全是妄想。
Lenny: 但我们就是这么做的。
李飞飞: 我们需要用尽可能多的关于物体图像的信息来训练机器。但是物体非常非常难以学习。单个物体可以在图像上显示出无限的可能性。为了用成千上万的物体、概念来训练计算机,你真的需要向它展示数百万个例子。我们非常仔细地从互联网上整理了1500万张图创建了一个包含22000个概念的分类体系,借鉴了其他研究人员的工作,比如语言学家在WordNet上的工作,这是一种特殊的词典编纂方式。我们将这些整合到ImageNet中,并将其开源给研究社区。我们举办了一年一度的ImageNet挑战赛,以鼓励所有人参与其中。我们继续进行自己的研究。
但2012年是很多人认为的深度学习开端或现代人工智能诞生之年,因为一群由杰夫·辛顿教授领导的多伦多研究人员,参与了ImageNet挑战赛,使用了ImageNet大数据和MVDia的两块GPU,成功创建了第一个神经网络算法,该算法可以,它并没有从根本上,它并没有完全解决,但在解决物体识别问题上取得了巨大进展。而这三者的结合,即技术、大数据、神经网络和GPU,是现代人工智能的黄金配方。快进到人工智能的公共时刻,也就是ChatGPT时刻,如果你看看将ChatGPT带到世界上的成分,从技术上讲,它仍然使用了这三种成分。现在是互联网规模的数据,主要是文本,比2012年复杂得多的神经网络架构,但它仍然是神经网络,以及更多的GPU,但它仍然是GPU。因此,这三种成分仍然是现代人工智能的核心。太不可思议了。
Lenny: 我以前从未听过完整的版本。我喜欢最初是两个GPU。我喜欢这样。是的。现在是,我不知道,成千上万个,对吧,数量级上更强大。是的。那两个GPU只是买来的,它们就像游戏GPU。他们只是去了像游戏之星一样的地方,对吧,人们用它来玩游戏。正如你所说,这在很大程度上仍然是模型变得更智能的方式。世界上目前发展最快的一些公司,我基本上都在播客中采访过,比如Mercor、Surge和Scale。他们就这样做,他们持续为实验室这样做,只是给他们提供越来越多的他们最感兴趣的事物的标签数据。
李飞飞: 我记得Alex Wong在Scale早期的时候。我可能还保留着他创办Scale时的邮件。他,他非常友善。他一直给我发邮件,说ImageNet如何启发了Scale。我很高兴看到这一点。
Lenny: 我从您刚才分享的内容中获得的另一个最喜欢的收获是,这正是高能动性的一个例子,就是去做事。这在推特上有点像一个梗。就是你可以做事情。你好的,这就是。可能有必要推动人工智能发展。那时它被称为机器学习,那是大多数人使用的术语吗?
李飞飞: 我认为可以互换使用。确实如此。比如,我记得那些公司,那些科技公司。我不打算点名,但我记得在早期的一次对话中,大概是2015年中到2016年中。一些科技公司避免使用“人工智能”这个词,因为他们不确定“人工智能”是否是个贬义词。我记得我当时实际上是在鼓励大家使用“人工智能”这个词,因为对我来说,这是人类在追求科学和技术方面提出的最勇敢的问题之一。我为这个术语感到非常自豪。但是,一开始,有些人不确定。
Lenny: 大概是哪一年,人工智能是个贬义词?
李飞飞: 2016年。我认为那是,不到10年前。那就是改变。就像有些人开始称之为人工智能。但我认为如果你看看硅谷的科技公司,如果你追溯他们的营销术语,我认为2017年左右是公司开始称自己为人工智能公司的开端。
Lenny: 太不可思议了。世界变化如此之快。是的。现在你不能不称自己为一家人工智能公司。
李飞飞: 我知道。
Lenny: 仅仅九年左右之后。是啊。天啊。好的。关于这段历史,早期的历史,在你看来,在讨论事物发展方向和你正在做的工作之前,还有什么人们不知道但你认为重要的吗?
李飞飞: 我认为就像所有的历史一样,我清楚地意识到我被认为是历史的一部分,但也有很多的英雄和研究人员。我们说的是几代研究人员。他们,在我自己的世界里,有很多激励我的人,我在我的书中提到过。但我确实觉得我们的文化,尤其是硅谷,倾向于将成就归功于某一个人,我认为这有价值。但这只是为了被记住。人工智能是一个已经有70年历史的领域,我们已经经历了很多代,没有人,没有人能够独自到达这里。
AI的现状与下一个前沿:世界模型
Lenny: 好的。那么让我问你这个问题。感觉我们总是站在通用人工智能(AGI)的悬崖边上,这是一个模糊的术语,人们到处乱用,好像通用人工智能即将到来。它将接管一切。怎么样,你在服用什么?你认为我们距离通用人工智能还有多远?你认为我们能按照目前的轨迹到达那里吗?你认为我们需要更多的突破吗?你认为目前的方法能让我们到达那里吗?
李飞飞: Lenny,这是一个非常有趣的术语。我不知道是否有人定义过通用人工智能。有很多不同的定义,包括,机器的某种超能力,一直到机器可以在社会中成为经济上可行的主体。换句话说,挣工资来生活。这是通用人工智能的定义吗?作为一名科学家,我非常严肃地对待科学,我进入这个领域是因为我受到了这个大胆问题的启发:机器能否以人类的方式思考和做事。对我来说,这始终是人工智能的北极星。从这个角度来看,我不知道人工智能和通用人工智能之间有什么区别。我认为我们在实现目标的部分方面做得很好,包括对话式人工智能。但我不认为我们已经完全攻克了人工智能的所有目标。我想我们的先贤,艾伦·图灵,我在想如果艾伦·图灵今天还在世,你让他对比人工智能和通用人工智能,蒂姆,我只会耸耸肩说,我在 1940 年代就问过同样的问题。所以,我不想陷入深究人工智能与通用人工智能定义的兔子洞。我觉得通用人工智能更多的是一个营销术语,而不是一个科学术语。作为一名科学家和技术专家,人工智能是我的北极星,是我这个领域的北极星。我很高兴人们用他们想用的任何名字来称呼它。
Lenny: 那我换个方式问吧。就像你描述的那样,有一些组件,从 ImageNet 和 AlexNet 一路发展到今天,基本上是 GPU、数据、标记数据,就像模型的算法一样。此外, former 模型感觉像是这个轨迹中的重要一步。你是否觉得这些相同的组件能让我们达到,我也不知道,比现在聪明 10 倍的模型,某种对整个世界来说具有改变生命意义的东西?你认为我们在哪些方面需要更多的突破?我知道我们要讨论世界模型,我认为这是其中的一个组成部分,但你是否认为还有其他的东西,比如,这是一个瓶颈,或者,好吧,这会带领我们前进,只需要更多数据、更多算力、更多GPU。
李飞飞: 不,我绝对认为我们需要更多的创新。我认为更多数据、更多GPU和更大规模的当前模型架构的扩展定律,在这方面仍有大量工作要做。但我绝对认为我们需要更多创新。在人类历史上,没有一个深层的科学学科到达某个阶段后会说,我们完成了,我们停止创新了。而人工智能,如果不是人类文明中最年轻的科学技术学科之一,也是其中之一,我们仍然只触及了表面。
例如,就像我说的那样,我们要过渡到世界模型。今天,你拿一个模型,让它运行一段包含几个办公室房间的视频,然后要求模型数一下椅子的数量。这是幼儿就能做到的事情。或者也许是一个小学生可以做到的,而人工智能却做不到,所以今天的人工智能有很多事情都做不到。那么更不用说思考像艾萨克·牛顿这样的人,是如何观察天体的运动,并推导出能够支配所有物体运动的方程或方程组的。那种程度的创造力、推断、抽象,我们今天没有办法让AI做到。
接下来让我们看看情商。如果你看到一个学生来到老师的办公室,就动机、热情、学习什么、困扰你的问题是什么进行对话。即使今天的对话机器人功能强大,但在那种对话中,你无法从今天的AI中获得那种程度的情感认知智能。所以我们有很多可以做得更好的地方。我不认为我们的创新已经结束。
Lenny: 德马斯最近接受了DeepMinds/Google的一次非常有趣的采访,有人问他们,你怎么看?我们离AI还有多远?它看起来会是什么样?你没看穿那里?我们有一种非常有趣的方法来处理这个问题:如果我们把最先进的模型在20世纪末之前的所有信息都给它,看看它是否能提出爱因斯坦的所有突破。到目前为止,我们从未接近那个目标。不,我们没有。
李飞飞: 事实上,情况更糟。让我们把所有的数据都给人工智能,包括牛顿没有的天体的现代仪器数据。然后把它交给人工智能,让它创建一套17世纪关于物体运动规律的方程。今天的人工智能做不到这一点。
Lenny: 好的,我们还差得很远,这就是我所说的。好的,那么让我们来谈谈世界模型。对我来说,这只是你领先于人们最终所处位置的另一个非常棒的例子。所以你很早就意识到,我们需要大量干净的数据供人工智能和神经网络学习。你已经谈论世界模型这个想法很久了。你创办了一家公司来构建它。本质上,存在语言模型。这是不同的东西。这是一个世界模型。我们将讨论那是什么。现在,正如我为这次谈话做准备时,埃隆也在谈论世界模型。黄仁勋也在谈论世界模型。我知道谷歌也在研究这些东西。你已经从事这项工作很长时间了。而且你实际上刚刚推出了一些东西,我们会在这个播客播出之前讨论。谈谈什么是世界模型?为什么它如此重要?
李飞飞: 我很高兴看到越来越多的人在谈论,我一直在思考如何真正地推动人工智能的发展,我的一生都是如此,过去几年,从研究领域涌现出来的大型语言模型,以及OpenAI等等,即使对于像我这样的研究人员来说,也极具启发性。我记得GPT2发布的时候,那大概是2020年末吧。我曾是,现在仍然是,斯坦福人类中心人工智能研究所的全职联合主任。我记得当时,公众还没有意识到大型语言模型的力量,但作为研究人员,我们已经看到了,我们看到了未来。我和我的自然语言处理同事,比如珀西·梁和克里斯·巴丁,进行了相当长时间的对话。我们讨论了这项技术将会有多么关键。斯坦福人工智能研究所,人类中心人工智能研究所(HIAI),是第一个建立关于基础模型的完整研究中心的机构。我们,珀西·梁和许多研究人员发表了第一篇关于基础模型的学术论文。
因此,这对我来说非常鼓舞人心。当然,我来自视觉智能领域,我一直在思考,我们可以在语言之外推进很多东西,因为人类已经利用我们的空间智能和对世界的理解来做了很多事情,而这些事情超越了语言。想想一个非常混乱的急救现场,无论是火灾、交通事故还是自然灾害。如果你沉浸在现场,想想人们如何组织自己去拯救人们,阻止进一步的灾难,扑灭火灾,很多都是动作,是对物体、世界、人类和情境意识的自发理解。语言是其中的一部分,但在很多情况下,语言无法让你扑灭火灾。那么,那是什么呢?我一直在思考很多,与此同时,我做了大量的机器人研究。我突然意识到,除了语言之外,连接额外智能的关键,以及连接具身人工智能(即机器人技术),连接视觉智能的关键,是对世界理解的空间智能。那就是,我想我是在2024年,我做了一个关于世界模型的空间智能的TED演讲。我在2022年就开始构思这个想法,基于我的机器人和计算机视觉研究。然后对我来说非常清楚的一件事是,我真的很想与最聪明的技术人员合作,并尽可能快地将这项技术变为现实。这就是我们成立这家名为World Labs的公司的原因。你可以看到“世界”这个词在我们公司的名称中,因为我们非常相信世界建模和空间智能。
Marble发布:人人皆可创造的世界
Len-ny: 人们已经非常习惯于聊天机器人,那是一个大型语言模型。理解世界模型的一个简单方法是,你基本上描述一个场景,它会生成一个可以无限探索的世界。我们会链接到你发布的东西,我们稍后会讨论,但这只是理解它的一种简单方式吗?
李飞飞: 那是其中的一部分,Lenny。我认为理解世界模型的一个简单方法是。这个模型可以让任何人在他们的脑海中通过提示(无论是图像还是句子)来创造任何世界,并且能够在这个世界中互动,无论是浏览和行走,还是拾取物体,还是改变、改变事物,以及在这个世界中进行推理。例如,如果。
Lenny: 如果消费的人,如果消费这个世界模型输出的代理是一个机器人,它应该能够规划它的路径,并帮助你,例如,整理厨房。
李飞飞: 所以世界模型是你可以用来推理、交互和创造世界的基础。
Lenny: 很好。所以机器人感觉像是人工智能研究人员的下一个重要焦点,以及对世界的影响。而你在这里所说的是,这是使机器人真正在现实世界中工作的关键缺失部分,即理解世界如何运作。
李飞飞: 是的。首先,我确实认为令人兴奋的不仅仅是机器人。但我同意你刚才所说的一切。我认为世界建模和空间智能是一个关键的缺失部分。的具身人工智能。我也认为我们不要低估人类是具身智能体,而人类可以通过人工智能的智能得到增强。就像今天一样,人类是语言动物,但当人工智能帮助我们执行语言任务(包括软件工程)时,我们会在很大程度上得到增强。我认为我们不应该低估,或者也许是,我们往往不谈论人类作为具身智能体,实际上可以从世界模型和空间智能模型中受益,就像机器人一样。
Lenny: 这里的重要突破是机器人,如果一切顺利,这将是一件大事。我设想我们每个人都会有机器人为我们做很多事情,它们会帮助我们应对灾难。当然,游戏就是一个非常酷的例子,就像你可以凭空创造出无限可玩的游戏。然后,创造力感觉就像是乐趣,享受乐趣,发挥创造力,构思出神奇的、狂野的全新世界和环境。
李飞飞: 还有设计,人类设计从机器到建筑再到住宅,以及科学发现,这里面有很多,我喜欢用发现DNA结构的例子。如果你看一下DNA发现历史上最重要的部分之一,那就是罗莎琳德·富兰克林拍摄的X射线衍射照片。那是一张平面的二维照片,照片上的结构看起来像一个带有衍射的十字。你可以,你可以用谷歌搜索那些照片。但是通过那张二维的平面照片,人类,特别是两位重要的人物,詹姆斯·沃森和弗朗斯·克里克,除了其他信息外,还能够在三维空间中进行推理,并推导出了DNA高度三维的双螺旋结构。那个结构不可能是二维的。你不能用二维的思维来推导出那个结构。你必须用三维空间思维,运用人类的空间智能。所以即使在科学发现中,空间智能或人工智能辅助的空间智能也至关重要。
Lenny: 这是一个很好的例子,我认为克里斯·迪克森说过这样一句话:下一个伟大的事物最初会让人觉得像个玩具。当ChatGPT刚问世时,我记得萨尔·莫姆只是发推说,这是一个我们正在玩的很酷的东西,看看吧。现在它是历史上增长最快的产品,改变了世界。通常那些看起来只是“好吧,这很酷,玩起来很有趣”的东西,最终会极大地改变世界。
李飞飞: 是的。我们认识很多年了。但是,目前他们是 World Labs 的投资者。太棒了。
机器人的挑战与“苦涩的教训”
Lenny: 好的。我问他我应该问你什么。他建议问你,为什么苦涩的教训本身不太可能适用于机器人?首先,请解释一下人工智能历史上苦涩的教训是什么,以及为什么它不能让我们达到我们希望机器人达到的目标?
李飞飞: 首先,有很多苦涩的教训,但大家所说的苦涩教训是指理查德·萨顿撰写的一篇论文,他获得了图灵奖。最近,他在做大量的强化学习。理查德说过,如果你回顾历史,特别是人工智能的算法发展史,你会发现,拥有海量数据的简单模型最终总是会胜出,而不是拥有较少数据的更复杂模型。实际上,这篇论文是在ImageNet出现几年后发表的。对我来说,这并不是苦涩的。这是一个甜蜜的教训。这就是我创建ImageNet的原因,因为我相信大数据发挥着重要作用。
那么,为什么苦涩的教训只能在机器人技术中起作用呢?首先,我认为我们需要肯定我们今天所取得的成就。机器人技术还处于实验的早期阶段。这项研究远不如……比如,语言模型那样成熟。很多人仍在试验不同的算法,其中一些算法由大数据驱动。所以我确实认为大数据将继续在机器人技术中发挥作用。
但是,机器人技术的难点是什么?有几个方面。
Lenny: 一是获取数据更难。
李飞飞: 获取数据要困难得多。你可能会说,好吧,有网络数据。这就是最新的机器人研究使用网络视频的地方。我认为网络视频确实发挥了作用。但是如果你想想是什么让语言模型变得有价值,作为一个从事计算机视觉、空间智能和机器人技术的人,我非常嫉妒我在语言领域的同事,因为他们拥有一个完美的设置,他们的训练数据是单词,最终是标记,然后他们产生一个输出文字的模型。所以你在你希望获得的东西(我们称之为目标函数)和你训练数据的样子之间,有一个完美的对齐。
但机器人技术是不同的。即使是空间智能也是不同的。你希望从机器人那里获得行动。
Lenny: 但你的训练数据缺乏在3D世界中的行动。
李飞飞: 这正是机器人必须做的,在3D世界中的行动。所以你必须找到不同的方法来把一个,他们称之为方枘圆凿的东西硬塞进去。我们拥有的是大量的网络视频?那么我们就不得不开始讨论添加补充数据,例如远程操控数据或合成数据,以便机器人通过大量数据的“苦涩教训”这一假设进行训练。我认为仍然有希望,因为即使我们在世界建模中所做的工作,也将真正释放大量此类信息。为了机器人。但我认为我们必须小心,因为我们正处于早期阶段,而“苦涩教训”仍有待检验,因为我们还没有完全弄清楚数据。
机器人“苦涩教训”的另一方面,我认为我们应该非常现实地看待,再次强调,与语言模型甚至空间模型相比,机器人是物理系统。因此,机器人更接近于自动驾驶汽车,而不是大型语言模型。这一点非常重要。这意味着,为了让机器人工作,我们不仅需要大脑,还需要物理身体,还需要应用场景。如果你看看自动驾驶汽车的历史,我的同事塞巴斯蒂安·特龙(Sebastian Thrun),我的同事塞巴斯蒂安·特龙,在2006年或2005年带着斯坦福的汽车赢得了第一届DARPA挑战赛。自那辆自动驾驶汽车原型问世以来已经20年了。
Lenny: 能够在内华达州的沙漠中行驶130英里,直到今天的Waymo,以及在旧金山的街道上行驶,而且我们还没有完成,还有很多。
李飞飞: 所以这是一个20年的旅程,而且自动驾驶汽车是简单得多的机器人。它们只是在二维表面上运行的金属盒子,目标是不接触任何东西。机器人是在三维世界中运行的三维物体,目标是接触事物。所以这段旅程将会有很多方面和要素。当然,有人可能会说,早期的自动驾驶汽车算法是在深度学习时代之前。所以深度学习正在加速大脑的运转。我认为这是真的。这就是我从事机器人行业的原因。这就是我从事空间智能领域的原因,我对此感到兴奋。但与此同时,汽车工业已经非常成熟。而产品化也涉及到成熟的用例、供应链和硬件。所以现在是研究这些问题非常有趣的时刻。但确实,本说的是对的。我们可能仍然会遭受一些痛苦的教训。
Lenny: 在做这项工作时,你是否会对大脑的工作方式感到敬畏,它能够为我们完成这一切,仅仅是其复杂性,仅仅是为了让机器能够四处走动而不撞到东西和摔倒?这是否让你更加尊重我们已经拥有的东西?
李飞飞: 完全是。我们的运行功率约为20瓦。这比我现在房间里的任何灯泡都暗。然而,我们却能做这么多。所以实际上,我认为,我越是在人工智能领域工作,我就越尊重人类。
Marble的诞生与应用
Lenny: 让我们来谈谈您刚刚推出的这款产品,它叫做Marble,一个非常可爱的名字。谈谈这是什么,为什么这很重要。我一直在试用它。简直令人难以置信。我们会提供链接,供大家查看。
李飞飞: 什么是Marvel?我非常兴奋。所以首先,Marble是World Labs推出的首批问题之一。World Labs已经推出。World Labs是一家基础前沿模型公司。我们由四位具有深厚技术背景的联合创始人资助。我的联合创始人是贾斯汀·约翰逊、克里斯托夫·拉斯纳和本·米尔登霍尔。我们都来自人工智能、计算机图形学和计算机视觉的研究领域。我们相信,空间智能和世界建模与语言模型同样重要,甚至更为重要,并且可以作为语言模型的补充。因此,我们希望抓住这个机会,创建一个深度技术研究实验室,将前沿模型与产品联系起来。
所以Marble是一款基于我们前沿模型构建的应用程序。我们花了一年多的时间来构建世界上第一个可以输出真正3D世界的生成模型。这是一个非常非常困难的问题。这是一个非常艰难的过程。我们拥有一支由杰出技术专家组成的创始团队,他们来自非常优秀的团队。大约一两个月前,我们第一次看到可以用一个句子和一个图像以及多个图像来提示,并创建我们可以导航的世界。如果你把它放到谷歌上,我们有选项让你这么做,你甚至可以四处走动,所以,尽管我们已经为此构建了相当长一段时间。它仍然令人叹为观止。
我们想把它送到需要它的人手中。
Lenny: 然后我们知道,如此多的创造者、设计师、思考机器人模拟的人、思考可导航、可互动、沉浸式世界的不同用例的人、游戏开发者会发现这很有用。
李飞飞: 所以我们会发现这很有用。所以我们开发了Marble作为第一步。这,这再次说明,现在还非常早期。但它是世界上第一个这样做的模型。而且它是世界上第一个允许人们直接提示的产品。我们称之为提示两个世界。
Lenny: 额,我一直在玩它,简直太疯狂了。就像你可以拥有一个小郡世界,在那里你可以无限地在中土世界漫步,基本上就是这样。而且那里还没有,还没有人。但这太疯狂了。你可以去任何地方。还有像反乌托邦世界。我只是在看所有这些例子。是的。实际上,我最喜欢的部分是,我不知道,我不知道这算是一个功能还是一个漏洞。你可以看到世界上的点,在它实际渲染出所有纹理之前。而且我就是喜欢让你瞥见这个模型正在发生的事情。
李飞飞: 基本上,听到这些真是太酷了。是的。因为这就是我作为研究员正在学习的地方,因为引导你进入世界的那些点是一个有意的特征可视化。它不是模型的一部分。实际上是模型直接生成了这个世界。但我们试图找到一种引导人们进入这个世界的方法。许多工程师研究了不同的版本,但我们最终确定了点。很多人,你不是唯一一个,告诉我们这个体验是多么令人愉快。对我们来说,听到这个消息真的很令人满意,这个有意的可视化特征不仅仅是大型硬核模型,实际上让我们的用户感到高兴。
Lenny: 哇,所以你添加它是为了让人们更容易理解正在发生的事情,变得更加愉快。哇,这太搞笑了。这让我想到了大型语言模型,虽然方式不同,但它们会谈论自己的想法和正在做的事情。
李飞飞: 确实是。
Lenny: 这也让我想到了黑客帝国。就像完全是黑客帝国的体验。我不知道这是否是你的灵感来源。
李飞飞: 就像我说的,有很多工程师参与了那个项目。这可能是他们的灵感。
Lenny: 它就在那里。它在他们的潜意识里。是的。好的,所以为了那些可能想和我们一起玩,或者使用它的人。比如,现在人们可以开始使用的有哪些应用程序?你们这次发布的目标是什么?
李飞飞: 是的。所以我们确实认为世界建模是非常普遍适用的,但我们已经看到了一些非常令人兴奋的用例,比如电影的虚拟制作,因为他们需要能够与摄像机对齐的3D世界。这样当演员在上面表演时,他们就可以,他们可以很好地定位摄像机并拍摄片段。我们已经看到了令人难以置信的用途。事实上,我不知道你是否看过我们展示Marble的发布视频。它是由一家虚拟制作公司制作的。我们与索尼合作。他们使用Marble场景来拍摄这些视频。所以我们与那些技术艺术家和导演合作,他们说这已经将我们的制作时间缩短了40倍。
事实上,它一定是……40倍。事实上,它必须如此,因为我们只有一个月的时间来完成这个项目。而且有...如此多的东西他们试图拍摄。因此,使用Marble确实极大地加速了视觉特效和电影的虚拟制作。这是一个用例。
我们已经看到我们的用户正在把,正在采用我们的Marble场景并获取网格导出,并将其用于游戏,无论是VR游戏还是游戏,只是他们开发的一些有趣的游戏。我们曾经展示过一个机器人模拟的例子,因为我过去,我仍然是一名从事机器人训练的研究员,最大的痛点之一是创建用于训练机器人的合成数据。这些合成数据需要非常多样化。它们需要来自不同的环境,并具有不同的物体来操作,而实现这一目标的一个途径是让计算机进行模拟。
Lenny: 否则,人类就必须,为机器人构建每一个单独的资产。
李飞飞: 那样只会花费更长的时间。因此,我们已经有研究人员主动联系,希望使用Marble来创建这些合成环境。在用户希望如何使用Marble方面,我们也收到了意想不到的反馈。例如,一个心理学家团队打电话给我们,希望使用Marble来进行心理学研究。事实证明,他们研究的一些精神病患者需要了解他们的大脑如何对不同特征的不同沉浸式事物做出反应。例如,混乱的东西或干净的东西,或者任何你能想到的东西。研究人员很难获得这些沉浸式场景,而且创建这些场景会花费他们太长的时间和太多的预算。而Marble几乎是一种即时的方式,可以将如此多的实验环境送到他们手中。因此,我们现在看到了多种用例,但视觉特效、游戏开发者、模拟开发者以及设计师都非常兴奋。
Lenny: 这很符合人工智能领域的发展规律。我在播客中邀请过其他人工智能领域的领导者。而且总是这样,尽早地把东西发布出去,以便发现主要的用例在哪里。ChatGPTBT的负责人告诉我,当他们第一次推出ChatGPT时,他只是在浏览TikTok,看看人们如何使用它,以及他们都在谈论些什么。这说服了他们要倾斜资源,帮助他们了解人们实际上想如何使用它。我喜欢这最后一个用例,比如用于治疗。我只是在想象,比如恐高症,人们看到,处理恐高症或蛇或蜘蛛,这……太棒了。
李飞-飞: 昨晚我的一个朋友真的打电话给我,谈论他恐高的事情,并问我是否应该使用大理石。你直接想到那里真是太棒了。
Lenny: 那是,因为我正在想象所有的,比如,暴露疗法的东西。比如,这对于暴露疗法来说可能非常好。太酷了。好的,那么我问一下,我本应该早点问你的,但我认为会有一个问题,会有一个问题是,这与V-O-3和其他视频生成模型有何不同?我很清楚,但我认为解释一下这与人们见过的所有视频AI工具的不同之处可能会有帮助。
李飞飞: Warnap的论点是,空间智能从根本上来说非常重要,而空间智能不仅仅是关于视频。事实上,世界不是被动地观看流逝的视频,我很喜欢柏拉图用洞穴寓言来描述视觉。他说,想象一个囚犯被绑在椅子上,不是很人道,但在一个洞穴里,看着他面前一场完整的现场戏剧。但实际的现场戏剧就在他面前,但实际的现场戏剧,演员们是演员。在他的背后。它只是被照亮,这样动作的投影就在洞穴的墙壁上。然后这个囚犯的目标和任务就是弄清楚发生了什么。
Lenny: 这是一个非常极端的例子,但它确实表明,它描述了视觉的意义在于理解三维世界或四维世界。
李飞飞: 从二维中理解。所以对我来说,空间智能比仅仅创造那个扁平的二维世界更深刻。对我来说,空间智能是创造、推理、互动、理解深刻的空间世界的能力,无论是二维、三维还是四维,包括动态和所有这些。所以世界实验室专注于此。当然,创造视频本身的能力也可能是其中的一部分。事实上,就在几周前,我们推出了世界上第一个可在单个H-100 GPU上实时演示的实时视频生成。所以我们的部分技术包括这个。但Marble非常不同,因为我们真的希望创作者、设计师、开发者能够掌握一个可以为他们提供具有三维结构的世界的模型,以便他们可以将其用于他们的工作。这就是为什么,这就是为什么Marble如此不同。
Lenny: 在我看來,這是一個,它是一個,它是一個可以做很多事情的平台。正如你描述的,視頻就像是,這是一個非常有趣和酷炫的獨立視頻。然後你可以,就這樣,僅此而已。然後你繼續前進。
李飞飞: 順便說一句,在Marble中,我們可以允許人們以視頻形式導出。所以你可以真的,就像你說的,你進入一個世界,比方說這是一個霍比特人洞穴。你實際上可以,特別是作為創作者,你在導演的腦海中有一種非常具體的方式來移動相機,對吧?然後你可以將其從Marble導出為視頻。
创始人的旅程与对人才的忠告
Lenny: 創建這樣的東西需要什麼?團隊有多大?你用多少个GPU工作?有什麼可以分享的吗?我不知道這裡面有多少是私密信息,但是創造像你在這裡發布的東西需要什麼?
李飞飞: 需要大量的脑力。所以我们只讨论每个大脑20瓦。所以从这个角度来看,这是一个很小的数字,但实际上是令人难以置信的,那是5亿年的进化才赋予我们这些能力。我们现在有一个30人左右的团队。而且我们主要是研究人员或研究工程师。但我们也有设计师和产品人员。我们实际上真的相信,我们想要创建一个扎根于空间智能深层技术的公司。但我们实际上正在构建系列产品。因此,我们整合了研发和产品化。当然,我们使用了大量的GPU。那是一个技术团队。
Lenny: 那是技术团队。黄仁勋会很高兴听到这个消息。祝贺你们发布。我知道这是一个巨大的里程碑。我知道这花费了大量的工作。所以我只想说,祝贺你和你的团队。让我谈谈你的创始人历程。所以你是这家公司的创始人。你开始了。多少年前?几年前,两三年之前?
李飞飞: 一年前。
Lenny: 好的。 18个月。
在你开始做这件事之前,有什么是你希望自己知道的,你希望可以悄悄告诉18个月前的飞飞的?
李飞飞: 我仍然希望我知道科技的未来。我认为实际上这是我们的一个根本优势,即我们通常比大多数人更早地看到未来。但即便如此,伙计,未知的事物和即将到来的事物是如此令人兴奋和惊叹。但我知道你问我这个问题的原因很大程度上是关于技术的未来。你可能更...听着,我没有在20岁时创办一家如此规模的公司。我19岁时开了一家干洗店,但规模小了一点。
Lenny: 我们得谈谈那个。
李飞飞: 然后,我资助了谷歌云人工智能,然后我在斯坦福大学资助了一个研究所,但那些是不同的事情。我觉得作为一家磨砺之旅的创始人,我比20岁的创始人准备得更充分,但我仍然,我很惊讶,我很惊讶,有时这让我感到偏执,人工智能领域的竞争从模型、技术本身以及人才方面来说是多么激烈。而且,当我创立公司时,我们没有这些令人难以置信的故事,讲述某些人才的成本有多高,你知道吗?所以这些事情不断地让我感到惊讶,我必须对此保持高度警惕。
Lenny: 你所说的竞争,是对人才的竞争,是事情发展的速度。是的。是的。你提到了这一点,我想回到这一点,如果你回顾你的职业生涯,你会发现你身处所有人类聚集的主要场所,这些场所促成了当今发生的许多突破。显然,我们谈论了ImageNet,而且斯坦福大学的SAIL实验室也是许多工作发生的地方。谷歌云,许多突破也发生在那里。是什么把你带到这些地方的?比如,对于那些希望在职业生涯中取得进步,成为未来中心的人来说,把你从一个地方拉到另一个地方,把你拉到那些群体中的,是否存在一条贯穿始终的主线?这对人们来说可能会有所帮助。
李飞飞: Lenny,这实际上是一个很棒的问题,因为我确实会思考它。而且,显然,我们谈到了好奇心和热情把我带到人工智能领域。这更像是一个科学的北极星,我并不在意人工智能是否会成为现实。这是其中一部分。但我最终如何选择在特定的地方工作,包括创办世界实验室,我想我很感激我自己。也许还要感谢我父母的基因,我在智力上是个非常无所畏惧的人。我不得不说,当我招聘年轻人的时候,我也会寻找这一点。因为我认为如果一个人想有所作为,这是一个非常重要的品质。也就是说,当你想要有所作为时,你必须接受你正在创造新的东西,或者你正在投入到新的事物中。人们还没有这样做。如果你有这种自我意识,你几乎必须允许自己无所畏-惧,并且勇敢。
所以,例如,当我来到斯坦福大学时,在学术界,我非常接近所谓的终身教职,也就是说,在普林斯顿大学永远拥有一份工作,但是,我选择来斯坦福是因为我热爱普林斯顿的母校。就在那一刻,斯坦福有如此出色的人才,硅谷的生态系统也如此令人惊叹,所以我愿意冒着重新开始我的终身教职的风险。我即将成为第一位女性主管。的销售。实际上,当时我算是一位非常年轻的教员,我想那样做是因为我关心那个社群。我没有花太多时间思考所有失败的案例。显然,我很幸运,资历更老的教员支持我,但我只是想有所作为。然后去谷歌也很相似。我想和像杰夫·迪恩、杰夫·辛顿以及所有这些令人难以置信的演示、令人难以置信的人们一起工作,你也知道,世界实验室也是如此。我有这种热情,我也相信拥有相同使命的人可以做出令人难以置信的事情。这就是它如何引导我的思路的。我不会过度思考所有可能出错的事情,因为那样太多了。
Lenny: 我觉得这是其中一个重要因素,不要专注于消极面,更多地关注人、使命以及让你兴奋的事情。你怎么看?
李飞飞: 我同意。我想对人工智能领域的所有年轻人才、工程师、研究人员说一件事,因为你们中的一些人申请了World Labs,我感到非常荣幸你们考虑过,我确实发现现在的许多年轻人会在决定工作时思考一个等式的方方面面,也许在某个时候,也许这就是他们想做的方式,但有时我确实想鼓励年轻人专注于重要的事情,因为当我与求职者交谈时,我发现自己经常处于指导模式,不一定是招聘或不招聘,而仅仅是处于指导模式,当我看到一位令人难以置信的年轻人才,他过度关注考虑一份工作的每一个细微维度和方面,而也许最重要的是,你的热情在哪里?你是否与该使命保持一致?你是否相信并信任这个团队?只需专注于你能产生的影响以及你能合作的工作和团队类型。
Lenny: 这很难。在人工智能领域工作的人们面临着很大的压力。现在有太多的东西,太多的事情压在他们身上,太多的新闻,太多的事情发生,太多的错失恐惧症(FOMO)。这是真的。我能看到这种压力。所以这个建议非常重要,就像什么才能真正让你在你所做的事情中感到满足,而不仅仅是哪个公司得分最快,谁将获胜?我不知道。
以人为本:AI的责任与未来愿景
Lenny: 我想确保我问问你现在在斯坦福大学人机交互方面所做的工作,我认为是人本人工智能研究所(HAI)。你在那里做什么?我知道这是你仍然在网站上做的事情。
李飞飞: 人本人工智能研究所(HAI)是由我和一群教职员工共同创立的,比如John H.Mendi教授、James Landy教授、Chris Manning教授,早在2018年,我实际上是在谷歌完成我的最后一个学术休假。这对我来说是一个非常非常重要的决定,因为我可以留在工业界,但我在谷歌的经历教会了我一件事,那就是人工智能将是一种文明或技术。我突然意识到这对人类有多么重要,以至于我实际上在当年的《纽约时报》上发表了一篇文章(2018年),讨论了制定一个指导框架来开发和应用人工智能的必要性。而这个框架必须以人类的仁慈为基础,以人为本。我觉得斯坦福大学,这所位于硅谷中心的世界顶尖大学,孕育了从英伟达到谷歌等重要公司,应该成为一个思想领袖,创建这种以人为本的人工智能框架,并在我们的研究、教育、政策和生态系统工作中真正体现这一点。
所以我创立了HAI。快进一下,经过六七年,它已经成为世界上最大的AI研究所,进行以人为本的研究、教育、生态系统、推广和政策影响。它汇集了斯坦福大学所有八个学院的数百名教职员工,从医学到教育,到可持续发展,到商业,到工程,到人文,到法律。我们支持研究人员,尤其是在跨学科领域,从数字经济到法律研究,到政治学,到新药发现,到新算法,再到超越 formers的东西。我们实际上也非常重视政策,因为当我们开始HAI时,我意识到硅谷没有与华盛顿特区或布鲁塞尔或世界其他地方进行对话。鉴于这项技术的重要性,我们需要让每个人都参与进来。因此,我们创建了多个项目,从国会训练营到AI指数报告,再到政策简报。
我们尤其参与了。包括倡导一项在特朗普第一届政府期间通过的国家人工智能研究云法案,以及参与州一级的监管人工智能讨论。因此,我们做了很多,而且我仍然是领导者之一,即使我在运营方面的参与度已经大大降低,因为我关心。不仅我们创造了这项技术,而且我们以正确的方式使用它。
Lenny: 我不知道你还在做所有其他的那些工作。当你说话时,我想起了查理·芒格说过的一句话,把一个简单的想法非常认真地对待。我觉得你已经用许多不同的方式做到了这一点,并且坚持了下来。多年来,你在许多方面产生的影响令人难以置信。我要跳过闪电提问环节,我只想问你最后一个问题。你还有什么想分享的,或者想留给听众的吗?
李飞飞: 我对人工智能感到非常兴奋。我想回答一个问题,那就是当我在世界各地旅行时,每个人都会问我的问题是,如果我是一名音乐家,如果我是一名教师,中学教师,如果我是一名护士,如果我是一名会计师,如果我是一名农民,我能在人工智能中扮演什么角色?或者人工智能会接管我的生活吗?或者我的工作。我认为这是人工智能最重要的问题。我发现,在硅谷,我们倾向于不与人推心置腹地交流,与像我们一样的人以及不像我们一样的人在硅谷,而是与我们所有人。我们倾向于随意抛出诸如无限生产力或无限休闲时间,或者,无限权力或诸如此类的词语。
但归根结底,人工智能是关于人的。当人们问我这个问题时,我的回答是响亮的,每个人都可以在人工智能中发挥作用。这取决于你做什么和你想要什么,但任何技术都不应该剥夺人的尊严。人类的尊严和自主性应该成为每项技术的开发、部署以及治理的核心。所以,如果你是一位年轻的艺术家,并且你的热情是讲故事,那就拥抱人工智能作为一种工具。事实上,拥抱Marble吧,我希望它能成为你的工具。因为你讲述故事的方式是独一无二的,世界仍然需要它。但是你如何讲述你的故事呢?你如何使用你的故事呢?以最独特的方式讲述你的故事,这个最不可思议的工具非常重要。而且这种声音需要被听到。
如果你是一位即将退休的农民,人工智能仍然很重要,因为你是一位公民。你可以参与你的社区。你应该在人工智能的使用方式和应用方式上拥有发言权。你和你能接触到的人一起工作,鼓励你们所有人使用人工智能来让生活更轻松。如果你是一名护士,我希望至少在我的职业生涯中,我已经在医疗保健研究领域投入了大量精力,因为我认为我们的医疗保健工作者应该得到人工智能技术的极大增强和帮助,无论是提供更多信息的智能摄像头,还是机器人辅助,因为我们的护士工作过度,过度疲劳。随着我们社会的老龄化,我们需要更多的帮助来照顾人们。所以人工智能可以发挥这个作用。
Lenny: 所以我只想说,非常重要的是,即使像我这样的技术人员也真诚地认为每个人都在人工智能中扮演着角色。多么美好的结束方式。这与我们开始时关于人工智能将如何在我们的生活中发挥作用,以及我们如何承担个人责任的话题紧密相连。最后一个问题,人们可以在哪里找到Marble?如果他们想加入World Labs,他们可以去哪里?网址是什么?人们去哪里?
李飞飞:您可以在World Labs的网站那里找到我们的研究进展。我们有技术博客。您可以在那里找到产品Marble。您可以在那里注册。您可以在那里找到我们的招聘信息链接。您知道,我们在旧金山。我们喜欢与世界上最优秀的人才合作。
Lenny: 太棒了。非常感谢你的到来。
李飞飞:谢谢你,Lenny。





京公网安备 11011402013531号