当前位置: 首页 » 资讯 » 新科技 » 正文

谷歌 I/O 大会:Gemini升级,更轻量,发布Veo挑战 Sora

IP属地 中国·北京 编辑:大力 头部财经 时间:2024-05-15 09:27:33

【头部财经】在人工智能领域的竞争愈发激烈之际,谷歌 I/O 开发者大会于北京时间 5 月 15 日凌晨正式召开。Alphabet 公布了一系列举措,包括对 Gemini 模型的升级等。

Alphabet CEO 桑达尔·皮查伊在主题演讲中强调了谷歌各项业务与 AI 的紧密结合,如增强的 Gemini 聊天机器人和搜索功能改进。其中,“AI Overviews”搜索经过长时间测试后,本周将向美国所有用户推出服务,后续还会推广到更多国家和地区,该搜索使用 Gemini 大模型来综合信息并回答复杂问题。皮查伊称正处于人工智能平台的早期阶段,创作者、开发者和初创公司都能借此获得诸多机会,这便是 Gemini 的意义所在。

同时,Alphabet 还公布了 Gemini Pro 1.5 模型的升级,将上下文窗口从当前 100 万 tokens 增加到 200 万,意味着其能在一个 prompt 中理解数千页文本或一个多小时的视频,Gemini 1.5 Pro 将面向全球开发者开放。此外,还推出了 Gemini 1.5 Flash,该模型速度更快、体积更小且部署更灵活,支持多模态,旨在降低部署人工智能的成本并加快响应速度,且和功能更强大的版本一样,可以接收大量数据,并针对聊天应用、视频和图像字幕进行了优化。

在此次开发者大会上,谷歌对搜索业务进行了全面的 AI 改造,并更新升级了 Gemini 1.5 Pro 版本,同时推出了 Gemini 1.5 Flash 轻量化小模型。此外,谷歌还推出了据称效果超越 Sora 的视频生成模型 Veo,展示了类似于 GPT-4o 的语音视觉交互功能 Gemini Live,以及 AI 智能体 Project Astra。

Gemini 升级,更轻量

谷歌宣布将 Gemini 1.5 Pro 升级至 200 万 tokens,并全面支持 Workspace。同时,Gemini 1.5 Pro 将面向全球开发者开放。升级后的 Gemini 1.5 Pro 在多项公共基准测试中取得了显著提升,在多项图像和视频理解基准测试中也实现了最先进的性能。此外,Gemini 1.5 Pro 还能够遵循越来越复杂和精细的指示,包括指定产品级行为的指示,如角色、格式和风格等。

为了满足用户对低延迟和低成本的需求,谷歌发布了 Gemini 1.5 Flash。与 Gemini 1.5 Pro 相比,该版本的特点是响应速度更快,成本低至 0.35 美元每百万 tokens。而 Gemini 1.5 Pro 则针对对高质量内容有需求的用户,收费为 7 美元每百万 tokens。

尽管 Gemini 1.5 Flash 体积小巧,但它仍实现了 100 万个标记的长上下文窗口,开发人员还可以注册尝试 200 万个标记。它适用于摘要、聊天应用、图像和视频字幕、长文档和表格的数据提取等多种任务。从今天起,超过 200 个国家的用户都可以在 Google AI Studio 和 Vertex AI 中使用 Gemini 1.5 Flash。

值得注意的是,谷歌在此次大会上还宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced。升级后的 Gemini Advanced 可以处理“多个大型文档,总计最多 1500 页,或汇总 100 封电子邮件。同时支持 35 多种语言和 150 多个国家及地区。

发布 AI 智能体 Project Astra

“长期以来,我们一直梦想打造一个通用的 AI 智能体,帮助人们的生活更加便捷。现在,我们经过多年努力,推出了 Project Astra 的通用 AI 智能体。”桑达尔·皮查伊在发布会上表示。

在大会现场,谷歌 Deepmind 的 CEO 杰米斯·哈萨比斯展示了 Project Astra 的原型运作视频。在演示过程中,谷歌展示了一个人拿着手机,将摄像头对准办公室的各个地方,并通过语言与之交互:“当你看到有东西发出声音时,请告诉我。”在这段视频演示中,Astra 能够识别各种物体甚至代码,并与人类进行实时语音互动。

发布视频生成模型 Veo 挑战 Sora

在此次发布会上,杰米斯·哈萨比斯宣布谷歌正式发布了一款全新的视频生成模型 Veo,将成为 Sora 的有力竞争对手。

谷歌声称,Veo 能够根据文本、图像创建超过 60 秒的高质量 1080P 视频,用户可以对光照、镜头语言、视频颜色风格等进行设定。此外,Veo 还能够理解电影和视觉技术,例如延时拍摄的概念。

用户只需写出文本提示即可生成视频,例如“在宁静的山地平移镜头,相机慢慢露出白雪皑皑的山峰、花岗岩岩石和倒映天空的清澈湖泊”“一艘宇宙飞船在浩瀚的太空中穿梭,星星划过,高速,科幻”。

根据谷歌公布的演示视频,Veo 生成的小狗毛发非常细腻,走路动作、姿态也非常逼真。

搜索引擎升级,与 Gemini 结合

谷歌搜索负责人莉兹·里德在发布会上表示,在过去的 25 年里,谷歌经历了许多技术变革,“我们不断重新构想和扩展 Google 搜索的功能。”

莉兹·里德宣布,借助 AI,谷歌搜索现在可以做更多超出人们想象的事情。她表示,将 Gemini 的先进功能(包括多步推理、规划和多模态)与谷歌搜索系统相结合,推出了 AI Overviews。AI Overviews 将首先在美国推出。通过 AI Overviews,用户可以上传演示其要解决的问题的视频,然后启动搜索在论坛和互联网的其他区域寻找解决方案。

此外,用户还可以向定制的 Gemini 模型提出复杂的问题。甚至当用户不知道自己要问什么的时候,Google 也可以为用户推荐,帮助用户进行头脑风暴。用户还可以直接与 Gemini 聊天,从整个收件箱中查找详细信息。

莉兹·里德称,“从回答、计划、需求定制到组织和视频搜索,Google 都会替你完成,而你只需要提问。”

在大会进行到一半时,桑达尔·皮查伊低调宣布谷歌的第六代张量处理单元 (TPU) 称为 Trillium,将于今年晚些时候向其云客户提供。TPU 可能不是谷歌当前众多人工智能更新中最引人注目的,但它是其人工智能工作的重要组成部分。

据谷歌介绍,作为“迄今为止性能最强、能效最高的 TPU”,Trillium 宣称与 TPU v5e 相比,每个芯片的峰值计算性能提高了 4.7 倍。

值得关注的是,谷歌此次还在安卓平台上推出了一系列全新的 AI 功能。谷歌表示,此前,“Circle to Search”功能允许用户无需切换应用即可搜索,现在它还可以作为学习伴侣,解答数学题、图表等复杂问题。目前,这一功能已在超过 1 亿台安卓设备上提供,预计到年底这一数字将翻一番。


标签: 谷歌 I/O 大会 Gemini Veo Sora

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。