当前位置: 首页 » 资讯 » 新科技 » 正文

突发!OpenAI深夜推出浏览器ChatGPT Atlas:一文深度详细解析「率先支持mac OS」

IP属地 中国·北京 AI寒武纪 时间:2025-10-22 06:05:25


Sam Altman 太“坏了”,昨天DeepMind产品负责人logan 宣布今天要发新新东西,结果又被sam截胡,OpenAI终于丢出了浏览器产品:ChatGPT Atlas。Sam 新口号(新大饼):重塑浏览器


就在刚刚,OpenAI 正式推出名为 ChatGPT Atlas 的全新人工智能驱动的浏览器,旨在通过将对话式 AI 深度集成到用户的日常网页浏览体验中,从而彻底改变人们与互联网互动的方式。其核心理念是,AI 提供了一个十年一遇的契机,可以重新思考浏览器的本质和功用。Atlas 并非简单地在传统浏览器上附加一个聊天按钮,而是将 ChatGPT 作为其“跳动的心脏”,使其成为一个能理解、协助甚至代为执行任务的智能伴侣

界面长这样,感觉平平无奇:


ChatGPT Atlas引入了三个核心功能:

让聊天无处不在的“随行聊天 (Chat Anywhere)”、能够跨网站学习用户偏好的“浏览器记忆 (Browser Memory)”以及可以自主操作网页完成复杂任务的“代理模式 (Agent Mode)”。通过这些创新,ChatGPT Atlas 致力于将浏览体验从被动的信息展示,转变为一种主动、高效且高度个性化的协同工作流程

ChatGPT Atlas 今天面向全球的 macOS 用户正式上线。所有用户均可下载和使用基础版的浏览器,更高级的“代理模式 (Agent Mode)”功能,在初期将仅对 Plus 和 Pro 付费用户开放,Windows、iOS 和 Android 平台的版本正在开发中


以下是详细解读,先不要看会不会颠覆现有的额浏览器,大家可以感受一下OpenAI的思路,感兴趣的接着往下看:

Atlas 的三大支柱:核心功能解析

Atlas产品负责人 Adam Fry 详细介绍了构成 ChatGPT Atlas 体验的三大核心功能支柱。Atlas 在提供创新功能的同时,也保留了所有用户熟悉的传统浏览器元素,如标签页、书签、密码自动填充等,确保了无缝的过渡体验。以下是三个功能解析

1.Chat comes with you anywhere (随行聊天)

这个功能旨在解决用户在传统工作流中反复在不同标签页之间复制和粘贴内容的痛点。在 Atlas 中,无论你正在撰写电子邮件、编辑文档还是浏览任何网页,ChatGPT 都可以被即时调用。它会以侧边栏或行内工具的形式出现,并且能够理解你当前页面的上下文


这意味着当你需要帮助时,AI 助手就在你手边,并且因为它了解你正在做什么,所以能够提供更具相关性和帮助性的建议。这彻底改变了以往需要打开一个专门的 ChatGPT 标签页,再将内容粘贴过去进行处理的繁琐流程

2.Browser Memory (浏览器记忆)

该功能将 ChatGPT 广受欢迎的“记忆 (memory)”特性从单一的聊天会话扩展到了整个网络浏览体验中。Adam 解释说,用户之所以喜爱 ChatGPT 的记忆功能,是因为随着使用时间的增长,它会变得越来越个性化,更能理解用户的需求。在 Atlas 中,这种个性化的学习能力将贯穿你访问的每一个网站。浏览器会安全地、选择性地记住你的偏好、历史记录和行为模式,从而提供更加贴心和高效的帮助。这使得整个浏览器体验随着你的使用而不断进化,变得越来越懂你,最终成为一个真正为你量身定制的工具


3.Agent (代理模式)

这是 Atlas 最具突破性的功能。在代理模式下,ChatGPT 不再仅仅是一个提供信息和建议的助手,而是能够主动为你“采取行动 (take actions)”的执行者。当你授权它时,屏幕上会出现一个代表代理的小光标,它会像人类用户一样开始在网页上点击、输入和导航。举例来说,代理可以帮助你预订餐厅或机票,甚至直接在你正在处理的文档中进行编辑。这一功能将浏览器从一个信息消费工具,转变为一个可以为你分担实际工作的强大生产力平台

Atlas 体验

统一的主屏幕

Atlas 的主屏幕,这是用户每次打开应用或新建标签页时都会看到的界面。屏幕中央是一个醒目的编辑器 ,用户可以直接在这里像平常一样向 ChatGPT 提问。同时,用户也可以方便地访问所有的工具、模型选择以及包含聊天历史的侧边栏


然而,由于它是一个浏览器,这个界面能做的事情远不止聊天。具有多种交互方式:

智能导航:输入“hacker news”,浏览器会直接识别意图并跳转到相应的 URL


自然语言书签:用自然语言说出“open my commits for this galaxy diff”,浏览器便能理解并打开你之前收藏的一个特定的 GitHub 提交页面


基于记忆的搜索:当不确定一份文档的具体位置时,输入了“搜索关于Atlas core design 文档”。浏览器开始搜索浏览记忆,并会成功找到了存储在 Google Docs 中的目标文件,点击即可打开


主屏幕编辑器的下方是“建议 ”区域。这是 Atlas 个性化功能的初步体现。这些建议会根据 Atlas 对你近期活动的理解,为你生成可能感兴趣的内容,从简单的新闻故事到更高级的代理任务委托。你使用 Atlas 的次数越多,这些建议就会变得越精准

随行聊天:伴侣侧边栏的实际应用

比如切换到了一个 GitHub 页面,上面是有一些正在处理的一些代码。在任何网页的右上角,用户都会看到一个“ask chatgpt”按钮。点击后,屏幕右侧会滑出一个“侧边栏 ”


在这个侧边栏中,你可以执行所有与 ChatGPT 相关的常规操作,但关键区别在于,它现在能够看到并理解当前网页的具体内容。这是一个重大的解锁,它将浏览器从一个仅仅为你展示信息的工具,转变为一个能够理解信息,甚至在某些情况下为你编辑信息的智能伙伴

演示两个场景:

1.让ChatGPT 总结当前代码差异 (diff) 的内容,AI 迅速给出了准确的摘要

2.提出了一个更复杂的问题:“将这个提交挑选到今天要发布的 RC 版本中安全吗?”。AI 会给出一个比如“风险很低”的评估


全新的搜索范式

Atlas 对搜索功能的重大升级。在浏览器中搜索一部想看的电影时,搜索结果页面顶部出现了一系列标签,如图片、视频和新闻 ,让用户可以像在传统搜索引擎中一样快速切换内容类型,同时又不失核心的聊天体验


最有趣的创新在于点击搜索结果后的交互。比如当点击一条影评链接时,页面并非全屏跳转,而是默认将聊天侧边栏滑入,并将网页链接以分屏视图的形式打开。这种设计是让你在浏览搜索结果时,身边始终有一个 AI 伴侣。这创造了一种“多轮体验 ”,你可以就当前浏览的页面内容持续与 AI 进行对话和提问,而不是被简单地发送到一个网页后就中断了与搜索引擎的互动


在看着四星好评的影评时,可以直接在侧边栏问 ChatGPT:你能用五个或更少的词总结这篇评论吗?,可以立即得到更精炼回答

光标聊天:行内 AI 辅助

一个非常普遍的工作流程是我们在邮件或文档中写好初稿,复制到 ChatGPT 进行润色,再把修改后的结果粘贴回来。Atlas 的目标是扁平化这个流程

你可以在邮件草稿中,他选中了一段写得较为随意的文字,文本旁边立即出现了一个小的ChatGPT 小部件。点击后,输入指令:润色我的语言。AI 随即在原地提供了一个更优雅、更专业的版本。当他点击“更新 ”按钮时,原始选中的文本就被 AI 生成的新文本无缝替换了。这种功能允许用户执行“范围非常明确的编辑”,极其有用


释放Agent的潜力:专属网络助理

不得不服,别管实际工作表现如何,OpenAI的交互设计还是很酷炫的,这在Agent 模式里也体现的淋漓尽致

Atlas 的高级功能——代理模式 (Agent Mode)。Atlas 如何被赋予能力,代表用户在网络上自主执行任务呢?

专业任务自动化

第一个场景设定在工作中。比如工作团队正在用一个 Google Doc 非正式地规划一个鬼屋项目。现在面临两个挑战:

1.文档中有些成员没有填写他们本周的任务(标记为“to-do”)。他需要礼貌地在文档中留言提醒他们

2.团队使用一个名为 Linear 的正式项目管理工具,他需要将 Google Doc 中所有已填写的任务,迁移并创建为 Linear 中的“issues”(任务)

如果自己项目管理经验不足,也不太熟悉 Linear 的操作。因此,可以将这项繁琐的任务完全委托给 Atlas 的代理模式。点击了界面上的“Agent Mode”按钮,并下达了指令。这个模式告诉 ChatGPT,希望它能在 Atlas 内部“代表我采取行动 “

启动后,屏幕上出现了一个独立的代理光标,开始自主地在 Google Doc 页面上移动和点击,就像一个真人在操作一样。OpenAI强调,这个代理是在用户的本地浏览器中运行,可以访问用户所有的本地认证信息(如登录状态)和历史记录,感觉就像是“用户自身的自然延伸 ”。用户可以实时观看代理的操作过程,也可以切换到其他标签页做自己的事,让代理在后台运行


经过一段时间:

结果显示,代理不仅成功地在 Linear 中创建了所有任务并正确地标记了负责人,还在 Google Doc 中为那些未完成任务的同事留下了礼貌的提醒评论。这个功能极大地节省你的时间和精力,实现了从“vibe coding”(凭感觉编程)到“vibe lifing”(凭感觉生活)的跨越,让用户可以将生活和工作中各种繁琐的任务委托给 Atlas 代理

个人生活辅助

一个常见的烦恼:需要根据用餐人数(8人)重新计算食材用量,并列出购物清单。可以首先使用普通的聊天功能询问 Atlas:为八个人做这道菜我需要买什么食材?。ChatGPT 迅速阅读了网页,完成了计算,并生成了一份清晰的购物清单

接下来,将任务升级。在确认自己只需要购买肉和蔬菜后,对 ChatGPT 说:你能帮我订购这些肉和蔬菜吗?。此时,ChatGPT 识别出这是一个需要实际操作的任务,并主动请求授权以代理模式接管浏览器。点击“继续 (continue)”后,代理便开始了行动

代理会展现出个性化能力:它知道你习惯电商购物,于是直接导航到了该网站。在搜索框中输入商品名称,并将正确的商品逐一添加到购物车中。最终,代理并没有直接下单付款,而是将装满商品的购物车准备好,交由你最后审核和确认。这体现了其作为“助手”而非完全自主决策者的设计理念,确保用户始终拥有最终控制权


安全

在展示代理模式强大能力的同时,OpenAI团队也花了大量篇幅强调其围绕安全和用户控制所做的设计。与 ChatGPT 共享整个浏览器的访问权限也带来了一系列全新的风险。因此,将安全性根植于从模型到产品体验的每一个环节至关重要。

内置的安全保障与操作边界

首先,代理模式有一些硬性限制以保障基础安全。它只能在用户打开的浏览器标签页内操作,无法执行用户电脑上的本地代码,也无法访问浏览器之外的任何文件。它的活动范围被严格限制在用户的网络浏览会话中

精细的用户控制:登录与登出状态

Atlas 赋予了用户精细的控制权。在一个新标签页中,用户可以随时决定 ChatGPT 代理是以“登录 (logged in)”状态还是“登出 (logged out)”状态运行

登录状态:代理可以使用用户在该网站的登录凭证和个人数据,适合需要访问个性化信息(如 Instacart 购物历史)的任务。

登出状态:代理在没有个人数据访问权限的情况下执行任务,适用于那些不需要登录的通用操作

团队建议用户在执行每项任务前仔细考虑,代理是否真的需要访问你的登录信息,从而以最小权限原则来保障数据安全

可选且透明的记忆功能

“浏览器记忆 (browser memories)”功能也是完全可选的。用户在首次设置浏览器时就可以选择是否开启。即使开启后,用户也可以随时在设置中查看、管理甚至删除这些记忆。这确保了用户对自己的数据拥有完全的知情权和控制权

用于保护隐私的隐身模式

对于任何用户不希望被浏览器或 ChatGPT 记忆的浏览活动和查询,Atlas 同样提供了标准的“隐身窗口”。团队以一个幽默的例子说明了其用途,比如当你想问一个私密问题时,就可以使用隐身模式来保护隐私

Sam Altman大饼计划

Sam Altman 认为人工智能的崛起代表着一个十年一遇的罕见机会 ,促使我们去重新思考浏览器的定义、使用方式,以及如何更高效、更愉快地利用网络。他指出,自从标签页 (tabs) 出现以来,浏览器领域在很长一段时间内都未曾见过重大的创新。这让 OpenAI 的团队感到兴奋,因为他们看到了一个真正重塑这一核心工具的巨大潜力

Altman 提出了一个核心的时代类比:在过去的互联网时代,浏览器的地址栏 (URL bar) 和搜索框 (search box) 是人们与网络互动的主要入口,是一种完美的模式。而现在,随着人们开始以新的方式使用互联网,他们相信“聊天体验 ”将成为未来与网络互动的全新、更佳的模式。基于这一理念,团队开始着手设计一款以对话式体验为中心的浏览器

Atlas 的工程负责人 Ben Goodger 进一步阐述了这一设计哲学。他强调,Atlas 的诞生源于一个简单而深刻的问题:如果你能和你的浏览器聊天会怎样?。从这个想法出发,团队重新构想了整个浏览体验,目标是用简洁的对话取代多年来积累的混乱和复杂 。一个关键的设计原则是,要避免让 Atlas 感觉像是“一个仅仅被钉上聊天按钮的旧浏览器”。相反,他们将 ChatGPT 置于产品的核心,使其成为 Atlas “跳动的心脏 (the beating heart of Atlas)”。这意味着 ChatGPT 将始终陪伴在用户身边,随时准备在你浏览网页时提供帮助

Sam Altman 认为当前展示的功能仅仅是这个项目的早期阶段。未来真正令人兴奋的可能性在于,当用户的“自定义指令”能够跟随他们到网络的每一个角落时,会发生什么。他描绘了一个未来场景:一个越来越了解你的代理,能够主动为你整合信息,发现你可能在互联网上感兴趣的内容,并将它们汇集在一起。这将远远超出当前演示的范围,实现更高层次的智能协同

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。