【头部财经】5 月 15 日,Google I/O 2024 大会的开幕主题演讲在美国山景城举行。在演讲中,谷歌 CEO 表示,目前整个行业正处于 AI 发展的早期,谷歌有信心和实力打这场持久战。他还强调,谷歌不会放弃 AI 领域的任何一个赛道,将打造一个 AI 界的六边形全能战士。
本次主题演讲的内容涵盖了新基础模型、AI Agent、文生图模型、文生视频模型、TPU 芯片、AI app、Android 与 AI、新开源大模型等多个方面。
在本次主题演讲中,谷歌展示了多款 AI 产品,包括多模态 AI 助手 Project Astra、文生视频模型 Veo、文生图片大模型 Imagen 3、音乐生成大模型 Lyria、轻量性能大模型 Gemini 1.5 flash、开源大模型 Gemma 2 等。这些产品在功能和性能上都有一定的亮点,展示了谷歌在 AI 领域的技术实力和创新能力。
其中,Project Astra 是谷歌重点推出的多模态 AI 助手,它具有低延时的丝滑语音对话体验,能够用摄像头让 AI 处理视觉信息。在演示视频中,Project Astra 能够迅速认出音响的发声部位、彩笔,还能对屏幕上的代码进行一定程度上的解释。它甚至还能根据箭头,提出在服务器和数据库之间添加缓存,能提高速度的建议,还能看懂画板上“薛定谔的猫”的梗图。
文生视频模型 Veo 是谷歌对 Sora 发起追赶的产品,它能够以各种电影和视觉风格生成高质量的 1080p 分辨率视频,时长可以超过一分钟。Veo 能够凭借对自然语言和视觉语义的深入理解,生成紧密代表用户创意愿景的视频。
此外,谷歌还展示了 Gemini 和 Google 相册、Gmail 邮箱、Google 地图、搜索等应用的结合,以及将 AI 构建到 Android 操作系统底层的计划。这些展示表明,谷歌正在将 AI 技术全面整合到其产品中,以提供更加智能、便捷的用户体验。
Project Astra——实时视频问答,发誓没有造假
I/O 大会上,谷歌发布了一段令人惊艳的 AI 助手演示视频,还发誓没有以任何方式伪造或篡改。
Demis Hassabis 表示,Project Astra 是他期待了几十年的 AI 助手的雏形,是 AI 助手的未来。
Project Astra 是一个实时、多模式的人工智能助手,它通过接收信息、记住所看到的内容、处理该信息并理解上下文细节来与周围世界进行交互。它的语音交互比当前形式的 Google Assistant 更加自然,没有延迟或滞后,可以回答问题或帮助用户做几乎任何事情。
在演示视频中,用户要求 Project Astra 在看到发出声音的东西时告诉自己,助手回答说它可以看到一个发出声音的扬声器。
交互是实时语音进行的,且没有“嘿,Google、Gemini”等唤起词。用户问 Project Astra 视频中显示器上的代码有什么作用,Project Astra 立即进行了解释。
Project Astra 记住了一闪而过的眼镜
Project Astra 关于视觉的处理甚至是整场发布会最大的亮点。“你记得我把眼镜放哪了吗?”“你的眼镜在桌子上的红苹果旁边。”Project Astra 甚至通过镜头记住了一闪而过的眼镜,并准确回答出在苹果旁。这里可能夹带了一点“私货”,这副眼镜上或许也有 Project Astra。
从演示看,Project Astra 可以快速处理收到的信息,可以通过连续编码视频帧并将视频和语音组合成事件时间线来做到这一点,然后缓存信息以供回忆。谷歌表示,其中一些功能将在今年晚些时候添加到 Gemini 应用程序和其他产品中。
谷歌称 DeepMind 团队还在研究如何最好地将多模态模型整合在一起,以及如何平衡超大型通用模型与更小、更集中的模型。
昨天刚发布 GPT-4o 的 OpenAI 最重大的突破也在多模态上,看起来似乎昨日重现。最大的一个区别在视觉处理上,目前 GPT-4o 只能处理静态图像,Astra 已经可以处理视频。
Project Astra 背后的 Gemini 系列大模型能力也有更新。上个月举办的 Google Cloud Next 2024 大会上发布了 Gemini 1.5 Pro,它具有原生音频理解、系统指令、JSON 模式等功能,可提供 100 万长文本能力,并已向全球开发者开放。
这次宣布推出的 Gemini 1.5 Flash 模型,解决了关键的成本问题。Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间,主要面向开发者。会上详细介绍了 Gemini 1.5 Pro 和 Flash 的定价。Gemini 1.5 Flash 的价格定为每 100 万个 token 35 美分,这比 GPT-4o 的每 100 万个 token 5 美元的价格要便宜得多。
谷歌还预告了接下来的动作,宣布今年晚些时候将模型的现有上下文窗口增加一倍,达到 200 万个 token。这将使其能够同时处理 2 小时的视频、22 小时的音频、超过 60,000 行代码或超过 140 万个单词。
谷歌去年 12 月发布的一个预录演示遭到“造假”质疑,通过剪辑误导人们高估 Gemini 的视频处理能力,不过现在,这些能力都是真实的了。
基于大模型的 AI 应用生态方面的进展
在这次 I/O 大会上,谷歌基于大模型的 AI 应用生态也有所升级,涵盖搜索、照片、创作、工具以及工作应用等各个方面。
搜索是谷歌 25 年前的创世产品。一年前,谷歌表示搜索的未来是 AI。现在,谷歌搜索中的 AI 真的来了,主打一个——“让谷歌帮你谷歌”。
谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在 I/O 大会上宣布,人工智能生成的搜索摘要,现在被称为“人工智能概述”,将在“本周”向美国的所有人推出,更多国家/地区即将推出。
与以前相比,AI 搜索可以处理更复杂的问题。谷歌提供了一个例子,也许用户在寻找一个新的瑜伽工作室,要求这个工作室既要在当地很受欢迎,也要方便通勤,还要有折扣,只需一次搜索就能实现。
此外,用户还可以调整已经生成的 AI 摘要,或者选择简化版本,或者选择查看更多细节。
这一切都是通过谷歌定制的 Gemini 模型实现的,它将多步推理、规划和多模态与搜索系统相结合,总结网络内容并展示答案,据称还是 AI 来设计和填充结果页面。
但有一个问题是,如果是 AI 为用户捕获搜索结果,谷歌的竞价广告业务该怎么办?
据谷歌高管称,与传统查询出的网页列表相比,AI 摘要中包含的链接会获得更多点击。“与以往一样,广告将继续出现在页面的专用位置上,并通过清晰的标签区分有机结果和赞助结果。”
除了提问,谷歌 AI 搜索还能制定计划,从饮食到旅行计划,比如搜索“创建一个容易准备的团体 3 天饮食计划”,AI 就会定制计划,然后用户可以将某份晚餐调整成素食,随后导出到文档或谷歌邮箱里。
搜索还不仅仅是文本框中的文字,谷歌的视觉搜索也进化了,可以用视频提问。比如,用户有台二手唱片机,上面带针的金属部件漂移了,不知道怎么回事,可以直接用视频搜索,就能得到有解决步骤的 AI 摘要和相关链接,省去了描述问题所需要的正确术语的时间和麻烦。
谷歌照片应用也将进化。桑达尔·皮查伊在演示中称,9 年前他们推出了这个应用,现在每天有超过 60 亿张照片和视频被上传到这里。
该应用将在未来几个月推出“询问照片(Ask Photos)”功能,这也是基于 Gemini 模型,可以让用户以自然语言搜索照片和视频中的人物、宠物、地点等,它能理解照片的上下文和主题,找到特定的回忆信息,无需滑动屏幕。
例如,“向我展示我参观过的每个国家公园的最好看的照片”“去年我在哪里露营?”“我的优惠券什么时候到期?”“露西娅什么时候学会游泳的?”“显示露西娅的游泳进步情况”“莉娜的生日派对是什么主题?”最后,它还能撰写旅行亮点或者个性化的标题,供用户在社交媒体上分享。
谷歌还称,“除非在极少数情况下是为了解决虐待或伤害问题,我们不会使用这些个人数据训练 Google Photos 之外的任何生成式 AI 产品,包括其他 Gemini 模型和产品。”
在创作工具方面,谷歌在 I/O 大会上还推出了 AI 生成视频的工具 VideoFX,并更新了 AI 图像和 AI 音乐创作工具 ImageFX 和 MusicFX。
VideoFX 可以让电影制作人编写提示来构建电影镜头,ImageFX 添加了图像编辑控件,而 MusicFX 推出了一个新的 DJ 模式。
其中,新工具 VideoFX 由 Veo 提供动力,Veo 是谷歌 DeepMind 最强的生成式视频模型。这个新工具配备了一个故事板模式,可以逐个场景地进行迭代,并向最终视频添加音乐。
据谷歌高管称,Veo 能理解“延时拍摄”等电影术语,可以生成各种电影和视觉风格的 1080p 分辨率视频,时间还可以超过一分钟。Veo 将通过候补名单提供预览版。
另外值得注意的是,VideoFX、ImageFX 和 MusicFX 生成的所有内容都被数字水印 SynthID 标记,主要是为了防止 AI 内容滥用和虚假信息传播问题。
除了创作工具,谷歌日常工作应用的进化也值得关注。包括 Gmail 邮箱、日历、文档、表格、幻灯片、云端硬盘等在内的谷歌 Workspace 应用,将引入最新的 AI 模型 Gemini 1.5 Pro,位于侧边栏,作为一个虚拟助手。
当用户点击侧边栏的 Gemini 图标时,Gmail 中的 Gemini 将提供“总结此电子邮件”“列出下一步操作”“建议回复”等选项。用户可以让它总结小孩学校的邮件,获得需要行动的信息,起草回复。
另外,在昨天 OpenAI 发布的 GPT-4o 演示中,其中有个教育场景,GPT-4o 直接化身家教,逐步教一个青少年解决几何数学问题。
谷歌也宣布推出 LearnLM,这是一组基于 Gemini 的微调模型,专为学习教育而设计,并演示了一些在搜索、YouTube 应用上的 AI 教育学习场景。
比如,在 YouTube 上,用户可以在观看视频时提问,也可以针对视频提后续问题。在 Android 上,可以用画圈搜索(Circle to Search)尝试解决数学和物理题目中的特定困难。
在这场 AI 公司的军备竞赛中,谷歌追赶 OpenAI 的其中一大优势“老本”,在于其掌握手机安卓系统,以及庞大的应用生态。
但当生成式 AI 真的全方位进入谷歌的生态应用,直接接管搜索,帮人回忆过去,制定出行计划,取代真人家教等等,其准确性是否真的可靠?我们拭目以待。