![]()
整理: Web3天空之城
城主说|关心科技消息的读者这两天肯定注意到了, 谷歌最新的Gemini3 Pro及其衍生模型Gemini 3 Pro Image(也就是正在刷屏的Nano Bnana Pro)的超出预期的强大能力正在持续震动科技圈, 可以说在ChatGPT发布三年之际, 卧薪尝胆的谷歌终于超越OpenAI成为了AI领域的新王者.
谷歌AI的掌门人和诺奖获得者, DeepMind CEO Demis Hassabis 和副总裁 Josh Woodward, 在这个最新的播客深入探讨了谷歌最新发布的 Gemini 3 模型。详细讨论了新模型在推理、编程及界面生成方面的显著提升,并分析了其在基准测试中超越前代产品的表现。更进一步探讨了 AGI 的时间表、AI 泡沫论、扩展定律(Scaling Laws)的现状,以及谷歌如何在激烈的 AI 竞赛中重新定位自己。![]()
硅谷的空气中再次弥漫起硝烟的味道。如果说两年前,谷歌CEO桑达尔·皮查伊(Sundar Pichai)不得不将自家的AI产品比作一辆“正在升级的本田思域”,试图在OpenAI的法拉利面前争取时间;那么本周,随着Gemini 3的发布,谷歌显然认为他们已经更换了引擎。从“人类终极考试”的惊人得分,到对AGI(通用人工智能)倒计时的冷静预判,再到对当前AI投资泡沫的犀利剖析,这场对话揭示了这家科技巨头在激烈的AI军备竞赛中最新的攻守之道。
核心观点摘要
• “我希望它比本田思域快一点……也许它是一辆那种很酷的直线加速赛车。我们在研究方面一直走在前沿,现在的叙事正在从‘谷歌奋力追赶’转变为‘谷歌处于领先地位’。”
• “我们正沿着通往AGI的正确轨道前进。我认为这意味着还需要5到10年,可能还需要一两个重大突破(如世界模型、物理智能)。”
• “关于AI泡沫是一个过于二元化的问题。种子轮投资可能存在泡沫迹象,但在应用层和前沿科技领域(如药物发现、机器人)蕴含着巨大且真实的价值。”
• “Gemini 3不仅仅是回答问题,它正在跨越‘氛围编码’(vibe coding)的实用性门槛,并能为你实时生成定制化的交互界面。”
• “即使扩展定律(Scaling Laws)出现边际效用递减,它带来的回报依然极其丰厚。我们正处于这一时代。”
不再是“本田思域”:Gemini 3的质变与交互革命
在过去的一年里,AI模型似乎陷入了一种同质化的竞争,但Gemini 3的出现试图打破这一僵局。根据谷歌内部披露的数据,在被称为“人类终极考试”——一项涵盖研究生至博士级难度的跨学科基准测试中,前代模型Gemini 2.5 Pro的得分为21.6%,而Gemini 3 Pro飙升至37.5%。
对于Demis Hassabis来说,这不仅仅是数字的游戏,更是模型思维能力的质的飞跃。他并不掩饰对新模型的自信:“我想,在各种事情上,几乎都有一个质的飞跃。我觉得它在像‘氛围编码’(vibe coding)这类事情上已经跨越了一个实用性的门槛。”
但更引人注目的是Gemini 3试图重新定义“聊天机器人”的交互形态。它不再仅仅吐出文本,而是能够根据用户的需求,实时构建一个定制化的应用程序或界面。正如Josh Woodward所描述的那样,如果你在寻找房贷计算器,它不会给你一个公式,而是直接为你编写并展示一个交互式的计算器界面。
Woodward强调了这种从“对话”到“工具”的转变:“这是我们迄今为止在创建新型界面方面表现最好的模型……它将围绕你提问时为你生成界面做一些新的事情。” 这意味着,AI正在从一个被动的信息检索者,进化为一个主动的工具构建者。
通往AGI的倒计时:5-10年与必须跨越的障碍
作为DeepMind的灵魂人物,Hassabis对通用人工智能(AGI)的预测一直是业界的风向标。在此次访谈中,他重申了对技术路径的信心,同时也保持了科学家的严谨。他认为,目前的扩展定律(Scaling Laws)依然有效,但单靠堆砌算力并不足以触达终点。
“我仍然认为还需要一两件额外的事情才能真正实现你对通用智能的期望……比如我们正在与Simmer和Jeannie合作的世界模型概念。它们将建立在Gemini之上,但以各种方式扩展它。” Hassabis指出,要解决物理智能(Physical Intelligence)问题,让AI理解并作用于物理世界,还需要基础研究层面的突破。
关于具体的时间表,Hassabis给出了一个既乐观又审慎的判断:“它正按照我们预期的进展轨道前进。我认为这意味着还需要5到10年,可能还需要一两个突破。” 这表明,尽管Gemini 3表现强劲,但谷歌认为我们仍处于AGI马拉松的中段,而非终点冲刺。
直面泡沫论:价值在应用层,而非PPT
![]()
当华尔街开始对AI基础设施的巨额投入感到焦虑时,关于“AI泡沫”的讨论甚嚣尘上。对此,Hassabis提供了一个极其务实的视角。他拒绝将当前的市场状态简单定义为“泡沫”或“繁荣”,而是倾向于将其拆解来看。
“如果你看看种子轮投资,那些轮次价值数亿甚至数十亿美元,但实际上并没有什么实质性的产出……这似乎是某种泡沫的早期迹象。” Hassabis坦率地承认了早期投资市场的非理性。
然而,他话锋一转,将目光投向了更深远的价值洼地——科学发现与实体产业。“无论是否存在泡沫,我对Alphabet目前的状况感觉非常好……我们有像Gemini应用、NotebookLM这样的新产品领域,还有更前沿的机器人技术、游戏,以及我们与Isomorphic和Waymo在药物发现方面正在做的工作。”
在Hassabis看来,真正的价值将诞生于那些利用AI解决具体、复杂问题的领域,如药物研发和机器人技术,这些领域的业务规模潜力高达数千亿美元。对于谷歌而言,无论市场是否回调,他们都已做好了两手准备:“如果出现某种泡沫并进行紧缩,我认为我们也将处于最有利于利用这种情况的地位。”
重塑竞争格局:谷歌的“引擎室”战略
访谈中,可以清晰地感受到谷歌内部氛围的变化。一度被视为“反应迟钝的巨人”的谷歌,正在通过Gemini 3向竞争对手——尤其是OpenAI和Anthropic——发出强烈的信号。
Hassabis用“引擎室”(Engine Room)来形容DeepMind在谷歌生态中的新角色。这不再是单纯的研究实验室,而是成为了驱动整个谷歌庞大产品线的动力核心。从搜索、地图到Android和YouTube,Gemini的技术正在被注入到拥有数十亿用户的产品中。
“关于人工智能领域的叙事可能正在从‘谷歌在人工智能领域奋力追赶’转变为‘谷歌现在处于领先地位,或者至少处于领导地位’。” Hassabis说道。他强调,在这场可能是史上最激烈的科技竞赛中,唯一的关键指标是“进步速度”。
对于Gemini 3,谷歌采取了激进的部署策略,甚至将其引入主流搜索界面。这一举动暗示了谷歌在模型效率和成本控制上取得了重大突破,使其能够支撑数十亿级别的调用量而不致破产。正如Hassabis所言:“我们一直努力保持在成本与性能的帕累托前沿上。”
结语
![]()
Gemini 3的发布,或许标志着AI大战进入了一个新的阶段。在这个阶段,单纯的参数比拼已成过去,真正的较量转移到了模型的逻辑推理能力、交互形态的创新以及商业化落地的成本控制上。
对于Demis Hassabis和他的团队来说,Gemini 3既是他们重回巅峰的宣言,也是通往AGI漫长征途中的一个重要路标。
附录| 天空之城全文整理版 Gemini 3 的发布背景与初步印象
主持人1: 凯西,我们今天有一期关于 Gemini 3 发布的特别紧急播客。
主持人2: 凯文,万众期待,在硅谷的这些人工智能极客中讨论热烈。我们终于要亲身体验这个真正的产品了。
主持人1: 所以通常情况下,我们不会打破周五的发布时间表,仅仅为了一个大型人工智能公司发布的新模型而发布特别节目。他们一直在发布模型。但是我们认为本周值得专门讨论这个 Gemini 3 模型,原因有两点。
第一点是,我们有机会与 Demis Hassabis 和 Josh Woodward 进行了交谈,他们是谷歌的两位顶级人工智能高管。Demis 当然是谷歌 DeepMind 的首席执行官,这是他们内部的人工智能实验室。Josh Woodward 是谷歌 Gemini 团队及其他部门的副总裁。所以我们很高兴与他们交谈,并询问他们关于这次重大的新模型发布。
但我认为我们对此感兴趣还有其他几个原因。
主持人2: 一个很大的方面,凯文,就是与其他模型发布相比,这次的发布似乎更引起了谷歌竞争对手的关注。我们从其他人工智能实验室工作的人那里听到很多低语,他们觉得 Gemini 3 似乎在某些方面找到了解决办法,这可能对他们的业务不利。
主持人1: 我认为在人工智能行业中,有一种感觉是谷歌,这家公司在人工智能领域挣扎了几年,他们发布了 Bard 和第一版的 Gemini,后者出现了一些问题。我认为他们当时被视为在追赶最先进水平。而现在,我认为问题在于:这是他们重回人工智能排行榜顶端吗?这是他们夺回王冠吗?
所以我们将与 Demis 和 Josh 一起深入探讨所有这些。但让我们先谈谈,凯西,我们对 Gemini 3 有什么了解。他们本周早些时候举行了简报会,向我们介绍了一些关于新模型及其功能的细节。那么,我们从 Gemini 3 那里了解到了什么?是的。
主持人2: 嗯,就其功能而言,这对我来说总是最有趣的,谷歌分享了几件不同的事情。
第一,除了说出你所期望的所有事情,比如它在编程方面更出色,在语感编程方面也更出色之外。它还将围绕你提问时为你生成界面做一些新的事情。所以现如今,你问大多数聊天机器人一个问题。它会吐出文本并给出答案。也许它会给你展示一张图片。
据谷歌方面的人士所说,Gemini 3 将开始为你构建定制化的界面。他们展示了一个例子,有人想了解画家文森特·梵高,而 Gemini 3 就像是编写了一个包含各种图像和交互元素的互动式教程。他们展示了另一个例子,涉及为一个价值超过一百万美元的购房项目构建一个抵押贷款计算器,这是谷歌的任何人能想象到的最低购房金额。
所以这些就是你可以期待在 Gemini 3 中找到的东西。
主持人1: 所以我会说,这次简报以及谷歌在 Gemini 3 发布前分享的材料的主题是,这在基本上所有方面都比他们之前的模型 Gemini 2.5 Pro 要好。
一些引起我注意的基准测试中,有一个名为“人类的终极考试”的基准测试,这是一个非常困难的跨学科考试,包含了一堆大概是研究生或博士水平的问题。他们的上一个模型 Gemini 2.5 Pro 在该测试中得分约为 21.6%,而 Gemini 3 Pro 在该测试中得分达到 37.5%。
这基本上就是所有这些基准测试的故事。他们给出了十几个不同基准测试的例子,在新模型中,它能轻松击败旧模型。
我想,对很多人来说,这可能无关紧要。使用谷歌AI产品的绝大多数人,可能并不是在试图解决物理学中的新颖问题。但他们对这个模型的基本宣传就是:这是一个最先进的模型。
主持人2: 任何你用ChatGPT、Claude,甚至是旧版Gemini能做的事情,用Gemini 3 Pro都能做得更好。他们还谈到了测试他们称之为Gemini智能体的东西,它将能够做一件事,我一直盼着有人去做,那就是查看你的收件箱,理解其内容,提出回复建议,帮助你把邮件分类整理,真正以一种我个人从未能做到的方式帮助你掌控收件箱。
所以我们基本上只看到了关于它的几个动画GIF,但这绝对是我拿到Gemini 3后会尝试的第一件事。
主持人1: 我们应该说,他们不会立即向所有人推出这个功能。本周,Gemini应用中的用户以及AI模式(即Google主搜索引擎侧边的一个标签页)将可以使用它。它也将可供各种产品中的开发者使用。但他们并没有说明这何时会应用于像谷歌文档或Gmail中的Gemini集成等产品中,这些是日活跃用户达数十亿的非常受欢迎的功能。
但我认为他们将这个模型引入谷歌搜索中很有意思,尽管是以这种并非主要搜索栏的AI模式形式。这对我来说表明,他们觉得以足够低的成本来提供这个模型是可行的,使其有可能被数十亿人使用。并且这样做的成本不会使他们的服务器过载并产生数十亿美元的费用。
主持人2: 到目前为止,他们表示AI概览的使用量仍在不断增加,并且他们每个季度都在持续赚取更多收入。
主持人1: 所以这对他们来说似乎是行得通的,对网络的其余部分来说行不通,但对谷歌来说非常顺利。但我认为这就像是,很明显,谷歌相对于竞争对手的巨大优势在于他们拥有日活跃用户达数十亿的产品,他们可以随着时间的推移将Gemini 3塞入这些产品中,并获得越来越多的使用量,利用这些数据来改进他们的模型。
主持人2: 所以,这就是为什么当学生向我们征求建议时,我们总是告诉他们,第一步,建立一个合法的垄断。
主持人1: 谈到学生,谷歌本周做的另一个值得注意的宣布是,他们将向所有美国大学生提供一年免费使用付费版 Gemini 的机会,我认为这是一个明智之举。我对此感觉有点不舒服。
主持人2: 基本上就是告诉学生们,“嘿,你们为什么不用它来做一些家庭作业,也许可以帮助你们应付考试呢?我们先免费给你们尝尝鲜。”在今天早上我们进行的情况介绍会上,我也注意到有三位不同的人提到了“学习任何东西”这个短语。这似乎已经成为谷歌信息传递中一个非常突出的要点了,他们将 Gemini 定位为一个学习工具,嗯,这可能只是一个“做家庭作业工具”的委婉说法。我不知道。
主持人1: 是的。好的。所以这就是我们对 Gemini 3 所了解的。一旦 Gemini 3 在周二完全发布,我们将进行我们自己的测试和评测。但目前,我们只想向您介绍基础知识,并向您呈现我们对谷歌 DeepMind 的 Demis Hassabis 和 Josh Woodward 的采访。
专访:Gemini 3 的定位与能力
主持人1: 两年前,桑达尔·皮查伊告诉我们,Bard就像一辆升级版的思域(Civic),正在与更强大的汽车展开竞赛。那么 Gemini 3 算是什么样的车呢?
Josh: 这个问题问得好。Demis,你想回答吗?
Demis: 嗯,我希望它比本田思域快一点。我并不真正从汽车的角度来思考它。也许它是一辆那种很酷的直线加速赛车吧。
主持人1: 是的。是的。关于这个模型。我们听说了一些早期测试它的人的反馈。显然,各位已经展示了许多基准测试,非常令人印象深刻。Gemini 在具体层面上能做什么,是以前的 AI 模型做不到的?
Josh: 好的,我来谈谈可能非常突出的几点。
第一,我们开始看到这个模型在推理和能够同时进行多步思考方面表现出色。有时候过去的模型会丢失思路、失去焦点。这个模型在这方面要好得多。
你们明天还将看到的另一件事是各种新的生成式界面。这是我们迄今为止在创建新型界面方面表现最好的模型。它为人们提供了真正定制化的设计和针对他们问题的答案。
也许我想说的第三点是,我们在编程本身投入了大量的精力。因此,在许多编码示例中,您会看到一些新产品(如谷歌反重力)的出现,它们也会在一定程度上展示这一点。
主持人2: 有些讨论认为,对于普通用户来说,聊天用例似乎已经解决了,使用 Gemini 等产品的普通用户几乎想不出什么问题来提问,能生成与他们从上一个模型中获得的结果有意义上的不同。在 Gemini 3 中,您在多大程度上觉得这种情况属实,以及您认为普通人能在多大程度上真正注意到差异?
Josh: 我猜我们在一些测试中看到的一件事是(Demis,你也可以随时插话),我认为这些对我们来说,是一个更简洁、更具表现力的模型,它开始以一种更容易理解的方式呈现信息。我认为这对大多数人来说,将是一个巨大且直接的影响。
然后我认为开始变得有趣的是这些模型如何开始与其他类型的信息进行交互。因此,我们 Banyak 讨论了学生将如何使用该模型进行学习,甚至该模型如何连接到您可能在您的许可下拥有的其他谷歌产品中的其他类型数据。我认为这些就是我们开始展示超越标准文本问答来回方式的途径。
Demis: 我想我会补充一点,是关于事情的总体可靠性。你会发现它非常厉害,当你使用它的时候。
我认为我们在用户角色塑造上也下了很大功夫,我们内部称之为它的风格。我认为它更简洁。我认为它更切中要害。它很有帮助。我觉得它更有风格。我发现用它来头脑风暴和使用起来更愉快。
然后我想,我认为在各种事情上,几乎都有一个质的飞跃。我觉得它在像“氛围编码”(vibe coding)这类事情上已经跨越了一个实用性的门槛。我重新开始做我的游戏编程了。我打算,我必须在圣诞节期间为自己设定一些项目。因为我觉得它在前端和诸如此类方面已经变得非常有用和强大,这可能是以前版本不太擅长的。
AGI 时间表与人机关系
主持人1: 丹尼斯,上次我们在五月份邀请你参加节目时,你说你认为我们距离通用人工智能(AGI)还有五到十年,并且在此期间可能还需要一些重大的突破。Gemini 3 的发布及其表现是否改变了你的时间表,或者它是否包含了你认为必需的那些突破?
Demis: 不,我认为它,如果你明白我的意思,我认为它正沿着正确的轨道前进。我认为我们对这一进展非常满意。我认为这是一个绝对惊人的模型,它正沿着我所期望的轨道,以及我们自 Gemini 诞生以来过去两年一直保持的轨迹,而我认为这是业界最快的进步。我认为我们将继续保持这种发展轨迹。我们期望这种情况会继续下去。
但在此基础上,我仍然认为还需要一两件额外的事情才能真正实现你对通用智能的期望的那种跨领域的连贯性,同时在推理、记忆方面仍有改进,以及比如你所知道的我们正在与 Simmer 和 Jeannie 合作的世界模型概念。它们将建立在 Gemini 之上,但以各种方式扩展它。我认为其中一些理念也将是完全解决物理智能及其类似问题的必要条件。
所以两者都是真实的。我对 Gemini 3 的进展感到非常高兴。我认为人们会感到相当惊喜。但它正按照我们预期的进展轨道前进。我认为这意味着还需要五到十年,可能还需要一两个突破。
主持人2: 你提到了 Gemini 3 的风格。最近关于人工智能伴侣以及人们与它们建立的关系有很多讨论。你如何看待 Gemini 3 的个性,以及你希望用户与它建立什么样的关系?
Josh: 我想说,在应用程序本身中,凯西,我们非常感兴趣,在团队中我们经常将其视为一种工具,或者你用来处理和度过一天的东西。因此,无论是帮助解决你遇到的不同类型的问题,还是帮助你创造事物,这确实是我们看到它真正擅长以及我们希望它发展的方向所在。
我认为如果你放眼全局,看看 Gemini 或我们其他的项目,比如 Notebook L.M 或 Flow,我们确实在思考如何让人工智能真正成为你工具箱中一种超能力、一种超级工具,你可以用它来进行写作、研究、制作电影或做其他事情。所以这才是我们更关注的地方。
我认为随着时间的推移,我们团队真正感兴趣的是能够追踪一些指标,比如我们一天中帮助你完成了多少任务。这是我认为让我们感到兴奋的新型指标。以及就像最初的谷歌搜索工作一样。你会去使用它。你会尝试得到一个答案或被导向一个页面,然后从那里继续。
主持人1: 嗯,这一切听起来都很好、很负责任,但我担心你们因为不把这个东西做成一个色情伴侣而错失了大量的病毒式传播参与度。这是一个巨大的疏忽。
Josh: 恕不评论。
竞争格局与业务集成
主持人1: 在 Gemini 3 发布前夕的几天和几周内,你们的一些竞争对手一直非常紧张。
Demis: 我认为他们已经听到了和我们一样的传闻,关于这个模型可能非常出色,并且关于人工智能领域的叙事可能正在从“谷歌在人工智能领域奋力追赶”转变为“谷歌现在处于领先地位,或者至少处于领导地位”。
你是否觉得谷歌目前在人工智能竞赛中处于领先地位?请看,正如你们非常清楚的那样,这是一个异常激烈的竞争环境,可能是史上最激烈的。所以,你永远不能……几乎唯一重要的是你从目前位置的进步速度,这正是我们关注的焦点,我们对此非常满意。我并不认为这是一种“我们又回到了领先地位”之类的感觉。我们在研究方面一直走在前沿,我认为现在正进入我们的“正轨”阶段,确保下游应用体现在我们所有的产品中,我认为我们正在那里步入正轨。
我想你们在上次……我应该说,我们在那方面做得越来越好,比如让生成式对话模型(GDM)成为谷歌的“引擎室”,当然还有 Gemini 应用、NotebookLM 这些以人工智能为先导的产品,但同时也为所有这些令人惊叹的现有谷歌产品注入动力。无论是地图、YouTube、安卓,还是大家都知道的搜索,都将以人工智能优先的功能为核心,实际上在某些情况下,是从人工智能优先的角度重新构想事物,底层通常由 Gemini 驱动。
这进展得非常顺利。我认为我们才刚刚走完这个演变过程的一半,但看到我们的用户在看到每一个新功能,例如工作区和 Gmail 等时所获得的巨大价值和兴奋感,真的非常令人兴奋。那里的可能性几乎是无穷无尽的。因此,我们对此感到非常兴奋,同时也对我们正在构想和原型设计的所有这些人工智能优先的产品感到兴奋。
主持人2: 上周我们请了一位历史学家来到节目中,他正在 AI Studio 中使用一个尚未发布的谷歌模型,那个模型能够转录这些非常古老的文献,并能正确推断出,比如说,19世纪加拿大毛皮贸易中糖的度量衡是多少,这让他感到非常震撼。你能最终告诉我们,这个人用的是 Gemini 3 吗?
Josh: 我不确定是哪一个。
主持人2: 好的。
Josh: 我确实想说的是,这个模型在建立这些联系方面相当惊人。我不知道这位历史学家是使用了旧文件、日记或其他什么的图片。他当时就是在做这个。好的。它在这方面非常、非常、非常、非常好用。你们知道,像我这样的人字迹非常潦草。你可以拿一页笔记给它,它就能毫不费力地处理并继续下去。
主持人1: 你提到这次通话中,你会将这个集成到谷歌主搜索引擎侧边标签的人工智能模式的搜索中。这是否意味着你找到了比以前的模型更高效、更便宜地部署这个模型的方法?
Demis: 我认为我们总是在前沿。我觉得我们做得非常好的事情,除了模型的整体性能不断提升之外,就是我们模型的效率。还有我们开创和引领的蒸馏技术以及许多许多其他技术,我们现在正在投入使用。
显然,这对我们是必要的,因为我们有类似人工智能概述等极端用例,我们需要为数十亿用户提供服务。当然,我们的一些云客户企业客户也非常欣赏这种效率,以及成本效益。所以我们一直努力保持在成本与性能的帕累托前沿上。无论您想在这个前沿的哪个位置,如果您最看重性能,或者最看重成本,那么模型家族中都会有一个模型适合您。
所以,当然,我们今天只发布了 Pro 版本,但我们也在为 3.0 时代开发其他系列模型。所以您很快就会看到更多相关信息。
扩展定律、泡沫与安全
主持人2: 似乎每次我们看到新的前沿模型发布时,我们都会重新审视关于扩展定律的讨论,以及我们是否开始看到边际效益递减?我可以预测,在接下来的几天里,可能会有几个推特账号对此发表评论。所以我想在那种讨论开始之前先问问您,你们是如何看待 Gemini 3 与此相关的?
Demis: 我们对 Gemini 3 相较于 2.5 所取得的进展非常满意。所以我想说,实际上是参考我们之前讨论的内容,进展基本符合我们的预期并按计划进行,我们对此感到非常满意。
但这并不意味着存在某种程度的边际效用递减。人们听到边际效用递减时,他们会想到是不是零增长或者指数级增长,但两者之间也存在中间状态。所以它可能是递减的,它不会像每个时代那样呈指数级翻倍,但仍然非常值得做,而且能带来极其丰厚的回报。
所以我认为我们正处于那个时代。然后,如我所说,我的猜测是,尽管我们拭目以待,但仍需要一到两次突破。需要研究上的突破才能完全达到通用人工智能(AGI)。但在此期间,你显然需要我们今天构建的、并且仍在取得巨大进展的、尽可能规模最大的基础模型、多模态基础模型的版本。
主持人1: 在你今天展示的众多基准测试中,你觉得哪个对普通用户最重要?
Josh: 噢,这是个好问题。我认为大多数人不会像我们一样密切关注基准测试,但基准测试总是一种替代指标,所以你看到像在大型语言模型竞技场(LM Arena)中突破1500 ELO的成绩,这很棒,但真正重要的是产品中用户的满意度。
我认为让我们感到鼓舞的是,这些指标仍在朝着同一个方向发展。它们是彼此的良好替代指标。所以最终,我认为我们会公布所有的基准测试,我们对此感到非常自豪,它们代表了巨大的进步。但你也必须能够将这些转化为重要的产品体验。因此,在每一次发布中,我们都努力做到这两点。
主持人1: 随着模型能力的增强,是否存在任何新的危险能力或安全隐患?
Demis: 我认为,嗯,我们花了相当长的时间来处理这个模型,因为它处于前沿,并且,它有一些新的能力,而且正如你从基准测试中看到的,它的能力非常强大。
正如乔希所说,我们不会,我们不会,我们确保不在内部过度依赖这些基准。它们只是整体性能的一个代理指标,这就是为什么我们关心它们在各个方面的情况,以及最终用户如何体验它们。但我们花费大量时间进行测试,包括安全测试,与安全机构以及我们合作的外部测试人员进行所有不同维度的测试,当然,也进行了大量的内部测试。所以我想说,这是我们迄今为止经过最全面测试的模型。
主持人2: 你想提一下那些新出现的能力吗?无论它是否与安全相关?那里面有什么吗?你会想,好的,我们绝对需要确保将这些内容发送给许多外部研究人员。
Demis: 这只是确保我们在工具调用使用、函数调用以及这类事情上付出了非常大的努力。显然,它们对编码能力至关重要,开发人员需要这些,等等。而且它对推理能力也普遍非常重要。
但这也使得它们更有能力去应对更具风险的事情,比如网络安全。所以,当我们为所有好的用例改进这些维度时,我们必须更加谨慎,因为我们需要持续检查所有这些可能被滥用的措施。
主持人1: 我们是否处于人工智能泡沫中?
Demis: 我认为这是一个过于绝对化(二元化)的问题。我的看法,这完全是我个人的观点,是人工智能行业中有些部分可能处于泡沫之中。如果你看看种子轮投资,那些轮次价值数亿甚至数十亿美元,但实际上并没有什么实质性的产出。看来,虽然团队很有才华,但这似乎是某种泡沫的早期迹象。
另一方面,我认为有很多惊人的工作和价值,至少从我们看到的角度来看,不仅有像 Gemini 应用、NotebookLM 这样的所有新产品领域,还有更前沿的机器人技术、游戏等。无论是 Gemini 还是我们其他的模型,比如 Genie,都有着令人难以置信的用途,你可以想象一下我那些老游戏中的背景,你知道我非常渴望去思考那方面可以做些什么,以及我们与 Isomorphic 和 Waymo 在药物发现方面正在做的工作,所以所有这些新的空白领域需要一些时间才能成熟为价值数百亿甚至数千亿美元的巨大业务,但我认为其中有潜力出现半打到十几个这样的业务,我相信 Alphabet 会参与其中,这让我非常兴奋。
当然,还有即时回报,我们有引擎室,这是谷歌的工程核心部门,我们将这项技术应用于所有人们每天都在使用的、拥有数十亿用户的、令人难以置信的产品中。我们有太多的想法。这关乎执行力。比如,你会如何围绕它重组 Workspace?安卓、YouTube。那里的潜力太大了。我认为其中很多也将带来短期、近期的收入和直接回报,同时我们也在投资未来,更不用说云计算收入和 TPU 以及所有这些,我认为那也将是巨大的。
所以,无论是否存在泡沫,我对 Alphabet 目前的状况感觉非常好。我认为我们的工作是在这两种情况下都能取得胜利。如果没有泡沫,一切照常进行,那么我们将利用这个机会。但是,如果出现某种泡沫并进行紧缩,我认为我们也将处于最有利于利用这种情况的地位。
结语与建议
主持人2: 好的,让我们想象一下感恩节快到了,地点在湾区,我们的一位听众,把那个让每个人都不快的话题从政治转移到人工智能上,给人们一些值得兴奋的事情,然后有人说,嘿,我听说 Gemini 3 刚刚发布了。
比如,它到底能做什么?你会让我们的听众向他们的朋友展示什么例子,无论是用手机还是笔记本电脑,来展示“瞧瞧这个”,从而拯救感恩节?我不知道它是否能拯救感恩节,但它可能会带来一些欢笑。
Josh: 我们在 Gemini 中的图像模型仍然是世界一流的。所以我们会,我会说,拿出你的手机,可以是,iPhone、安卓,没关系,把它拿出来。你可以自拍,把自己放进去并进行编辑。人们仍然在大量地做这件事,而且非常有趣。
然后我想你就可以展示新 Gemini 3 伴随的其他任何能力了。但这就是我们看到人们热衷于这些有趣的使用案例,然后也开始尝试应用程序的其他部分。
主持人1: 各位听到了吧。Nanobanano 将拯救感恩节大餐。先生们,谢谢你们。很高兴与你们交谈,感谢你们抽出时间。感谢邀请我们。
Josh: 一切都好。谢谢大家。





京公网安备 11011402013531号