当前位置：首页 » 资讯 » 新科技 » 正文

谷歌 I/O 大会：Gemini升级，更轻量，发布Veo挑战 Sora

IP属地中国·北京 编辑：大力头部财经 时间：2024-05-15 09:27:33

【头部财经】在人工智能领域的竞争愈发激烈之际，谷歌 I/O 开发者大会于北京时间 5 月 15 日凌晨正式召开。Alphabet 公布了一系列举措，包括对 Gemini 模型的升级等。
Alphabet CEO 桑达尔·皮查伊在主题演讲中强调了谷歌各项业务与 AI 的紧密结合，如增强的 Gemini 聊天机器人和搜索功能改进。其中，“AI Overviews”搜索经过长时间测试后，本周将向美国所有用户推出服务，后续还会推广到更多国家和地区，该搜索使用 Gemini 大模型来综合信息并回答复杂问题。皮查伊称正处于人工智能平台的早期阶段，创作者、开发者和初创公司都能借此获得诸多机会，这便是 Gemini 的意义所在。
同时，Alphabet 还公布了 Gemini Pro 1.5 模型的升级，将上下文窗口从当前 100 万 tokens 增加到 200 万，意味着其能在一个 prompt 中理解数千页文本或一个多小时的视频，Gemini 1.5 Pro 将面向全球开发者开放。此外，还推出了 Gemini 1.5 Flash，该模型速度更快、体积更小且部署更灵活，支持多模态，旨在降低部署人工智能的成本并加快响应速度，且和功能更强大的版本一样，可以接收大量数据，并针对聊天应用、视频和图像字幕进行了优化。
在此次开发者大会上，谷歌对搜索业务进行了全面的 AI 改造，并更新升级了 Gemini 1.5 Pro 版本，同时推出了 Gemini 1.5 Flash 轻量化小模型。此外，谷歌还推出了据称效果超越 Sora 的视频生成模型 Veo，展示了类似于 GPT-4o 的语音视觉交互功能 Gemini Live，以及 AI 智能体 Project Astra。
Gemini 升级，更轻量
谷歌宣布将 Gemini 1.5 Pro 升级至 200 万 tokens，并全面支持 Workspace。同时，Gemini 1.5 Pro 将面向全球开发者开放。升级后的 Gemini 1.5 Pro 在多项公共基准测试中取得了显著提升，在多项图像和视频理解基准测试中也实现了最先进的性能。此外，Gemini 1.5 Pro 还能够遵循越来越复杂和精细的指示，包括指定产品级行为的指示，如角色、格式和风格等。
为了满足用户对低延迟和低成本的需求，谷歌发布了 Gemini 1.5 Flash。与 Gemini 1.5 Pro 相比，该版本的特点是响应速度更快，成本低至 0.35 美元每百万 tokens。而 Gemini 1.5 Pro 则针对对高质量内容有需求的用户，收费为 7 美元每百万 tokens。
尽管 Gemini 1.5 Flash 体积小巧，但它仍实现了 100 万个标记的长上下文窗口，开发人员还可以注册尝试 200 万个标记。它适用于摘要、聊天应用、图像和视频字幕、长文档和表格的数据提取等多种任务。从今天起，超过 200 个国家的用户都可以在 Google AI Studio 和 Vertex AI 中使用 Gemini 1.5 Flash。
值得注意的是，谷歌在此次大会上还宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced。升级后的 Gemini Advanced 可以处理“多个大型文档，总计最多 1500 页，或汇总 100 封电子邮件。同时支持 35 多种语言和 150 多个国家及地区。
发布 AI 智能体 Project Astra
“长期以来，我们一直梦想打造一个通用的 AI 智能体，帮助人们的生活更加便捷。现在，我们经过多年努力，推出了 Project Astra 的通用 AI 智能体。”桑达尔·皮查伊在发布会上表示。
在大会现场，谷歌 Deepmind 的 CEO 杰米斯·哈萨比斯展示了 Project Astra 的原型运作视频。在演示过程中，谷歌展示了一个人拿着手机，将摄像头对准办公室的各个地方，并通过语言与之交互：“当你看到有东西发出声音时，请告诉我。”在这段视频演示中，Astra 能够识别各种物体甚至代码，并与人类进行实时语音互动。
发布视频生成模型 Veo 挑战 Sora
在此次发布会上，杰米斯·哈萨比斯宣布谷歌正式发布了一款全新的视频生成模型 Veo，将成为 Sora 的有力竞争对手。
谷歌声称，Veo 能够根据文本、图像创建超过 60 秒的高质量 1080P 视频，用户可以对光照、镜头语言、视频颜色风格等进行设定。此外，Veo 还能够理解电影和视觉技术，例如延时拍摄的概念。
用户只需写出文本提示即可生成视频，例如“在宁静的山地平移镜头，相机慢慢露出白雪皑皑的山峰、花岗岩岩石和倒映天空的清澈湖泊”“一艘宇宙飞船在浩瀚的太空中穿梭，星星划过，高速，科幻”。
根据谷歌公布的演示视频，Veo 生成的小狗毛发非常细腻，走路动作、姿态也非常逼真。
搜索引擎升级，与 Gemini 结合
谷歌搜索负责人莉兹·里德在发布会上表示，在过去的 25 年里，谷歌经历了许多技术变革，“我们不断重新构想和扩展 Google 搜索的功能。”
莉兹·里德宣布，借助 AI，谷歌搜索现在可以做更多超出人们想象的事情。她表示，将 Gemini 的先进功能（包括多步推理、规划和多模态）与谷歌搜索系统相结合，推出了 AI Overviews。AI Overviews 将首先在美国推出。通过 AI Overviews，用户可以上传演示其要解决的问题的视频，然后启动搜索在论坛和互联网的其他区域寻找解决方案。
此外，用户还可以向定制的 Gemini 模型提出复杂的问题。甚至当用户不知道自己要问什么的时候，Google 也可以为用户推荐，帮助用户进行头脑风暴。用户还可以直接与 Gemini 聊天，从整个收件箱中查找详细信息。
莉兹·里德称，“从回答、计划、需求定制到组织和视频搜索，Google 都会替你完成，而你只需要提问。”
在大会进行到一半时，桑达尔·皮查伊低调宣布谷歌的第六代张量处理单元 (TPU) 称为 Trillium，将于今年晚些时候向其云客户提供。TPU 可能不是谷歌当前众多人工智能更新中最引人注目的，但它是其人工智能工作的重要组成部分。
据谷歌介绍，作为“迄今为止性能最强、能效最高的 TPU”，Trillium 宣称与 TPU v5e 相比，每个芯片的峰值计算性能提高了 4.7 倍。
值得关注的是，谷歌此次还在安卓平台上推出了一系列全新的 AI 功能。谷歌表示，此前，“Circle to Search”功能允许用户无需切换应用即可搜索，现在它还可以作为学习伴侣，解答数学题、图表等复杂问题。目前，这一功能已在超过 1 亿台安卓设备上提供，预计到年底这一数字将翻一番。

标签：谷歌 I/O 大会 Gemini Veo Sora

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

科技周报｜Meta计划大规模裁员，马斯克称一周内启动超级芯片工厂

对话JVS Claw负责人张献涛：为何阿里云要做独立龙虾App？

马斯克宣布7天内启动人工智能芯片制造项目Terafab

苹果蝉联第一，华为杀回榜首，这届数码圈太刺激了。。。

3·15晚会点名哈啰租电动车，上海市市监局：一经查实违法行为，将严肃查处

315曝光AI大模型“投毒”黑产！39.9元篡改AI答案

全站最新

科技周报｜Meta计划大规模裁员，马斯克称一周内启动超级芯片工厂

对话JVS Claw负责人张献涛：为何阿里云要做独立龙虾App？

马斯克宣布7天内启动人工智能芯片制造项目Terafab

苹果蝉联第一，华为杀回榜首，这届数码圈太刺激了。。。

热门推荐

科技周报｜Meta计划大规模裁员，马斯克称一周内启动超级芯片工厂

对话JVS Claw负责人张献涛：为何阿里云要做独立龙虾App？

马斯克宣布7天内启动人工智能芯片制造项目Terafab

苹果蝉联第一，华为杀回榜首，这届数码圈太刺激了。。。

3·15晚会点名哈啰租电动车，上海市市监局：一经查实违法行为，将严肃查处

超国标3倍！“3·15”点名“哈啰租电动车”等违规

315曝光AI大模型“投毒”黑产！39.9元篡改AI答案

央视315曝光租赁电动自行车“狂飙”，记者现场直击：正核查篡改速度等行为

谁在给AI“投毒”？315曝光GEO乱象，服务商透露收费3000元起、“一周见效”

租赁电动自行车“狂飙”，上海多部门对涉事企业开展现场核查

央视点名哈啰租电动车、电驴哥

天眼查数据：大模型“投毒”成数字消费隐忧，6.02%的数字消费相关企业曾出现法律诉讼

阅文集团推出作家专属AI创作Claw

天眼查数据：私域营销里的假专家，3600余家直播电商相关企业曾出现法律诉讼

天眼查数据：问题电动车九电出行关联公司成立不足一年