经过昨夜 OpenAI 的科幻级演示,所有人都在等着今晚来自谷歌的反击。如果说 2023 年的 I/O 大会是谷歌在 AI 领域的背水一战,那么今年的 I/O 大会上皮查虽然靠着自家的 Gemini 等产品逐步追上 OpenAI,但形势却难称喜人。过去一年里,就算祭出免费两个月的大杀器,Gemini 的用户量也不过是 ChatGPT 的 1/5,每每有新品上市,必然被 OpenAI 截胡,让谷歌活活成了 AI 界的汪峰。
所以皮查太需要一场惊艳的发布会,拿回属于谷歌的牌面了。与 OpenAI 的仅半个小时、集中在产品介绍的发布会完全不同,谷歌的 I/O 大会骨子里就透着一种武库尽出、拼死一战的意思。两个小时的发布会,它一口气拿出来十来款新品及升级,量大管饱,全面对标 OpenAI 在 AI 各领域上的发展。
然而,很多产品单看 Demo 还是有着不错的完成度,但整场发布会没有一点像 GPT-4o 带来那样的惊艳感。因为它们发布的大多数是追赶那些 OpenAI 已有的东西,没人会为一些别人已经做到的事情感到惊艳。最有可能带来惊艳感的新品——Gemini Astra 的戏份已经被昨天的 GPT-4o 演完了。到头来,想一秀肌肉的谷歌,还是被 OpenAI 四两拨千斤地卸了力。
我们更多地从它的搜索产品、模型产品上看到了谷歌的疲态和创新的缺失。本想看巅峰对决,但实际上昨天这场对决就已经结束了。
一、基础模型
1. Gemini 1.5 Pro 期货成真:在三个月前发布的 Gemini 1.5 Pro 终于不再是期货了!从今天起,它将正式开放给订阅了 Geminni Advance 的用户。如果你之前没白嫖过,那这两个月内你都可以免费用。
2. 性能提升:除了期货成真,在没完全铺开的这三个月时间里,谷歌也没停止对它的升级,四个基础模型最重要的维度都做了加强。首先是模型性能,谷歌通过数据和算法改进增强了其代码生成、逻辑推理和计划、多回合对话以及音频和图像理解能力。最新版本的 1.5 Pro 在多个 benchmark 中取得了 Sota 的成绩,谷歌扬眉吐气。
3. 上下文扩展:上下文方面,谷歌还把新 Gemini 1.5 Pro 的上下文窗口从业界最高的 100 万 token 扩展到合 300 本书的 200 万 token。三个月就提升一倍,谷歌的表现证明了上下文的问题在今年看起来已经不再是什么门槛了。
4. 多模态支持:在多模态支持上,Gemini Pro 现在还把语音理解这个过去的短板部分进行了补齐,虽然不像 GPT-4o 一样是原生语音多模态,但总算是模态齐全,成了完全体。
5. 指令跟随能力:非常影响使用体验的指令跟随能力方面,Gemini 1.5 Pro 也进行了一轮更新。现在可以遵循越来越复杂和细微的指令,包括那些指定产品级行为(如角色、格式和风格)的指令。你现在能让 Gemnini 假装自己是猫了。
虽然没有公布 Gemini 2,但四维拉满,从数据上看全面超越 GPT4 的 Gemini 1.5 Pro 应该还是能给谷歌撑起更大的场子。
二、多模态生成模型
1. 文生视频模型:除了文生视频模型的新公开,谷歌还推出了文生图像模型 Imagen 3。从细节拟真度来看与 Midjourney v6 能达到同一级别,比起 Dalle-3 更胜一筹。而且在对细节的跟随上也要更细致。
2. 音乐生成模型:音乐生成方面,去年惊艳众人的期货 Lydia 到这场发布会为止还是期货。谷歌又给它加了个新拓展 Music AI Sandbox,一套音乐 AI 工具。这些工具旨在为创意打开新的游乐场,让人们从头开始创作新的器乐部分,以新的方式转换声音等等。
3. 酷炫播片:然后就是酷炫播片,看起来比 Suno 厉害。但我用不着,所以还是能用的厉害。
4. 视频生成模型:最后,谷歌介绍了自己的视频生成模型——Veo 。它属于谷歌之前的一系列视频生成尝试的集大成者:融合了 WALT、VideoPoet、Lumiere 这几款在 Sora 之前发布的明星文生视频模型的长处。
从能力上看,它相当能打,可以生成高质量的 1080p 分辨率视频,能够超过一分钟,涵盖广泛的电影和视觉风格。从示例视频上看,Veo 生成的画面相当一致且连贯:人物、动物和物体在镜头中移动的很真实。
谷歌还表示,Veo 具有对自然语言和视觉语义的高级理解能力,能够生成与用户创意愿景紧密匹配的视频——准确呈现详细的长提示并捕捉情感。Veo 甚至还能理解电影术语,如“延时”或“航拍镜头”。
从质量上讲,谷歌的 Veo 和 Sora 足有一战之力。但是不得不说谷歌真的不太会演示。整个演示过程中,他们就放了一段汽车追逐的长生成视频,还不是全屏,看不清细节。其他的都是小片段,小画幅,细节模糊。震撼力大打折扣。
然而,和 Sora 一样,Veo 只会将作为 VideoFX 内的私人预览版提供给少量创作者,一般用户可以报名加入候补队列。不过这也说明,靠着 Veo,现在谷歌和 OpenAI 已经进入了谁能首先压缩成本,把这一技术推向 toC 领域的同一场竞赛了。
三、AI 搜索
1. 功能创新:AI 搜索可以说是谷歌的必争之地。面对着来势汹汹,号称要取代谷歌搜索的新秀 Perplexity 们,谷歌就算不用 AI,也得留着后者。从去年一年来看,新兴的 AI 搜索虽然获得了不少用户,但基本上没有动摇到谷歌搜索的根基。所以谷歌也是一副不紧不慢的样子:它的 AI 搜索服务 ESG 从去年五月到现在,整整公布一年时间后总算从今天起向公众开放使用了。这个更强的 AI 搜索引擎被谷歌命名为 AI Overview,但仅限美国,其他国家还得排队等着开。
2. 多模态搜索:从 Demo 展示来看,谷歌搜索在功能上的创新不算多,主要集中在多模态。首先,用户将能够通过简化语言或更详细地分解来调整 AI 搜索结果概述。其次,借助 Gemini 的多步推理能力,AI 搜索可以一次性处理复杂的多步,乃至多问题。同样构建在多步推理能力之上的是 AI 搜索的计划能力。通过 AI 搜索中的计划功能,你可以直接在搜索里获得一个完整的计划。最后是灵感延展功能,就是 AI 搜索在创建一个 AI 组织的结果页面,使您更容易探索。
以上的功能,其他的 AI 搜索都能做,但谷歌的结构化和界面做的最好。也仅此而已。最后其他 AI 搜索暂时做不到的是多模态搜索。靠 Gemini 的多模态功能,谷歌可以做到利用声音搜歌曲,利用图片搜产品。甚至可以用 Circle to Secarch 功能圈出图片中的一部分去搜索。AI 还能结合视频进行搜索。
但 Perplexity 们,总有用上多模态模型的那一天。而且看到他们用看图视花做例子介绍谷歌搜索的多模态功能时,我第一个想到的是微信扫一扫,不就能干吗(虽然原理并不相同)?
四、模型产品升级
1. Workspace:首先登场的是结合 Gemini 的 Workspace。你可以通过 Side Panel(一个能唤起 Gemini 的侧边栏)功能总结一系列邮件,可以总结你的账单,形成一个 Sheet。OK,去年看过了。自动回复邮件。去年看过了。每个都进行了小的升级,比如回复邮件可以从确认,回绝,搁置三种可能中选了。但……现场都掌声寥寥。
2. 虚拟员工:其他的更新,包括在聊天软件里的虚拟员工 Chip,能力基本没超过前几个月我们在国内看到的各种办公软件 Agent 的演示。
3. Gemini Live:模型产品里最重要的更新就是 Gemini Live。这是一个移动对话助理性产品,通过 Gemini Live,用户可以与 Gemini 对话,并选择它可以用来回应的各种自然声音。用户甚至可以按照自己的节奏说话或在回答中途打断以提出澄清问题,就像您在任何对话中一样。而且今年晚些时候,用户将能够在上线时使用摄像头,而开启关于周围所见内容的对话。
好的,又一次 GPT-4o 的即视感。
剩下其余几个产品升级都纯属是追赶性质。
五、Android + AI
除了 Cricle in Search 这个聚焦具体图片局部的多模态搜索外,本次 Android AI 重点是介绍了 Gemini 的手机应用,可以和手机上正在展示的内容进行互动。比如阅读打开的 PDF,从你正在看的 YouTube 频道反馈问题。挺好的,GPT-4o 的桌面版昨天都做到了,而且比起这里 Android 实际上是读取打开的文件,GPT-4o 的版本更像是和你一起在看着桌面上发生的一切。另外,它还有美妙的语音。
六、硬件
在这次发布会上,所有的 AI 模型都是由谷歌最新的 TPU——Trillium TPU 训练的。相较于前代,它的进步还是非常明显的。Trillium 实现了每芯片峰值计算性能的 4.7 倍提升,比 TPU v5e 提高了一倍。高带宽内存(HBM)的容量和带宽和芯片间互连(ICI)的带宽也比 v5e 翻了一番。
此外,Trillium 配备了第三代 SparseCore,这是一种专门用于处理超大嵌入的加速器,常见于先进的排序和推荐工作负载中。Trillium TPU 使训练下一波基础模型更快,并以更低的延迟和更低的成本服务这些模型。Trillium 可以扩展到一个包含 256 个 TPU 的单个高带宽低延迟 pod。
另外,能耗上 Trillium TPU 比 TPU v5e 的能源效率提高了 67% 以上,省电能力一流。
七、结语
这场发布会,看的人挺折磨的。我们想看新的、有竞争力的产品,谷歌却在不停的播片。从创作者感受,到体验演示,就是没有产品细部的表现。我们想看现场演示,但演示内容平淡无奇。甚至在很多地方是重复的,很多产品在不同位置被多次提到并展示。
因此这两个小时的时间显得无比冗长,枯燥。因为没有惊喜,我甚至都很少被调动起好奇的情绪。这当然有 OpenAI 截胡的原因,但昨天 25 分钟,三个产品(其中一个 UI 还基本没说)的发布会,就足够破坏谷歌这两个小时里的十多个产品发布更新所带来的所有惊喜。
这说明了什么问题?毫无疑问,谷歌的技术力还在,那些模型都很能打。但那些让人赞叹的技术突破,让人兴奋的产品演示,都没有了。有的只是可预期的表现,难超同行的功能。在一个新技术的时代,一个无比需要去开创可能性的时代中,想象力可能才是最重要的。但今天这场发布会里的谷歌,没有想象力了。我有点为它惋惜。