当前位置: 首页 » 资讯 » 新科技 » 正文

终极打工人诞生:OpenAI发布ChatGPT Agent,重新定义生产力边界

IP属地 中国·北京 编辑:任飞扬 时间:2025-07-19 20:13:45

当Agent能够完成复杂任务,我们需要学习如何与这个星球上最聪明的“打工人”共事。

作者 | 小葳

AI Agent的时代,比所有人预想的,来得更早、更猛烈。

北京时间7月18日凌晨,科技圈再次被OpenAI投下的一枚重磅炸弹引爆。没有冗长的预热,没有华丽的舞台,Sam Altman和他的团队通过一场25分钟的发布会直播,推出ChatGPT Agent

这不再是我们熟悉的那个“聊天机器人”,它是一个拥有了自己的虚拟电脑、能够自主思考、规划并执行复杂任务的“行动者”。

当看到ChatGPT Agent熟练地打开浏览器、分析网页、调用API、生成PPT、制作表格时,Sam Altman在直播中坦言:“对我来说,在观看它工作时,这是最让我感受到AGI的时刻之一。”

看完发布会,令人印象深刻的有三个方面:

第一, 面对多目标的复杂任务,ChatGPT Agent虽然耗时长一些,但完成度很高;

第二, ChatGPT Agent可以随时被打断,人类用户可以随时补充信息和指导,或增加新任务,人机协作的体验更加凸显;

第三,Agent通过自己专属的虚拟计算机完成所有任务,并将执行任务过程可视化实时展现,用户可以回放视频查看Agent每一步动作。

从“能聊”到“能干”:

统一智能体,OpenAI的必然一步

ChatGPT Agent的诞生并非凭空而来,它是OpenAI在智能体(Agent)道路上不断积累的必然结果。今年早些时候,OpenAI陆续推出了两个重磅工具:Deep Research Operator

然而,这两个工具如同两个“偏科生”。Deep Research擅长长文阅读,却无法与需要登录、交互的网页打交道;Operator擅长处理交互式与可视化的网页,却在深度分析和长文阅读方面力不从心。而许多真实世界的复杂任务,恰恰需要二者能力的结合。

正如Sam Altman在发布会上所说:“人们想要一个统一的智能体,它能自主运行,使用它自己的电脑,帮助人们完成真正复杂的任务。它能够无缝地切换,从思考到采取行动。它能使用各种工具,比如调用终端、在网页上点击操作,甚至能生成电子表格、幻灯片等文件,以及具备更多功能。”

ChatGPT Agent正是两者“强强联合”的实现,它融合了Deep Research的分析能力和Operator的执行能力,相当于赋予了Agent“大脑”和“双手”。

真正完成复杂任务:

自主选择工具,可视化执行过程

发布会上演示的第一个demo是一个多目标的复杂任务,用户9月份要出席朋友婚礼,需要准备服装、礼物、预订酒店等一揽子事情,用户把这些需求一股脑抛给Agent:

- 一套与所有场合的着装要求相匹配的服装(男士)。

- 提出五个服装选项。选择一些轻奢档次的服装,并应与场地和天气相配

- 找到那些两端都有几天缓冲期的酒店。

- 使用Booking进行预订,并务必检查可用性和当前价格。

- 同样别忘了为新人挑选一件礼物,价格最好在500美元以内。

Agent确认关键需求后就开始工作。整个任务完成花费了20分钟左右,在发布会最后,提供了完善的方案。5件服装备选直接提供了价格对比和购买链接。

当用户提出新增要求,安排一个包括美国职业棒球联盟(MLB)所有运动球场参观的旅行计划时,Agent直接给出精确到天的Excel行程表格。

Agent所有动作都是通过专属虚拟电脑完成,这台电脑上安装了很多不同的工具,Agent能自行选择如何使用。

同时,Agent将它执行任务的全过程展示为一个可视化的电脑屏幕,并在不断变化的对话框中显示文本形式的思维链过程,也就是Agent在想什么,它决定下一步做什么。

揭秘Agent的工作台:

一台虚拟电脑和它的工具集

要理解ChatGPT Agent的强大,首先要看它的“工作台”——一台专属的虚拟电脑。在这个工作台上,集成了一些强大的工具:

文本浏览器 (Text Browser):和Deep Research工具类似,它能快速抓取和解析大量网页的文本内容,进行高效的搜索和信息提炼,这让它能够非常高效快速阅读大量网页并进行搜索,是Agent高效处理信息的“利器”。可视化浏览器 (Visual Browser):和operator工具类似,这是Agent的“眼睛”和“手”。让Agent能像人一样“看”到网页的图形界面,进行点击、滚动、拖拽、填写表单等操作,轻松应对为人类设计的复杂交互界面。

终端 (Terminal)和API,通过与终端的连接,Agent可以运行代码、进行复杂的数据分析、处理文件,甚至直接生成可编辑的PowerPoint演示文稿和Excel电子表格。发布会演示中,Agent自行编写代码编译幻灯片,并调用图像API美化页面的场景,令人印象深刻。

通过API,Agent能够调用外部服务。包括公共API,以及用于访问你私有数据源的API,比如谷歌云端硬盘,谷歌日历,github,sharepoint等等。

拥有工具是一回事,懂得何时使用何种工具,则是更高维度的智能。OpenAI通过强化学习(Reinforcement Learning)的训练方式,学会在面对复杂任务时,自主规划并智能地选择最优工具组合。

比如,当被要求预订餐厅时,Agent可能会先用文本浏览器进行海量筛选,然后切换到可视化浏览器查看菜品图片,最后确认空位并完成预订。

从“指令-响应”到“委托-协作”:

人机协作的全新体验

如果说完成复杂任务是ChatGPT Agent的“硬实力”,那么其高度协作的交互模式则是它的“软实力”,也是它与其他AI工具显著区别。

过去,我们与AI的交互是僵硬的。一旦任务下达,我们能做的只有等待。而ChatGPT Agent被设计成一个真正的“协作伙伴”。

用户和智能体随时都能够主动与对方沟通,是ChatGPT Agent重要的交互理念。在ChatGPT Agent执行任务的任何时刻,用户都可以随时“插话”:

“Agent模型的一个关键能力是能够被随时打断,就像是在进行多轮对话。用户可以插话,引导它。”ChatGPT Agent研发人员表示。

用户可以中途补充新的要求(哦对了,再帮我找一双9.5码的黑皮鞋),可以纠正它的方向,甚至可以完全改变任务(我忘了提这件事,或者你的进度如何?做得怎么样了?)。Agent会理解新的指令,并在不丢失已有进度的前提下,继续工作。

同时,Agent也会主动沟通。在信息不足时,它会提出澄清性问题让用户确认;在执行关键操作(如发送邮件、下单支付)前,Agent会主动寻求用户的最终确认。这种双向沟通机制,确保了任务始终在用户的掌控之中。

更重要的是,用户拥有最终的“接管权”。如果对Agent的操作不满意,可以随时暂停,直接进入它的虚拟环境,自己动手修改。这极大增强了用户的安全感和控制感,使得人与AI之间建立起一种前所未有的信任关系。

碾压级跑分:

当Agent的能力被量化

为了证明ChatGPT Agent并非华而不实的“花架子”,OpenAI公布了一系列基准测试成绩。这些数据,将其强大的能力清晰地量化了出来。

在被誉为“人类最后考试”的HLE (Humanity’s Last Exam)基准上,该测试旨在衡量AI在各学科专家级问题上的表现,ChatGPT Agent取得了41.6%的分数,几乎是此前o3和o4-mini模型的两倍。前沿数学基准FrontierMath上,Agent在工具的辅助下,达到了27.4%的准确率,显著优于o3和o4-mini。

在衡量网页浏览和信息定位能力的BrowseCompWebArena测试中,Agent同样表现优异。

在与办公场景息息相关的SpreadsheetBench(电子表格编辑能力测试)中,Agent的得分高达45.5%

这些数字背后,反映出一个清晰的信号:ChatGPT Agent在通用推理、专业知识、工具使用和任务执行等多个维度上,已经达到了一个全新的高度。它不再是一个只能在特定领域展现才华的工具,而是一个具备广泛能力的“通才”。

“前沿与实验性”:

奥特曼的谨慎与Agent的风险预警

在展示强大能力的同时,Sam Altman也反复强调了这款产品的“前沿和实验性”,并坦诚地揭示了其潜在的风险。这体现了OpenAI在推动技术边界时的审慎态度。

研发团队称,目前最大的担忧之一,是被称为“提示词注入”(prompt Injection)的新型攻击。

当Agent访问恶意网站时,网站上的隐藏指令可能会“诱骗”它执行不当操作,比如泄露用户的敏感信息。

对此,OpenAI构建了多层防御体系,包括训练模型忽略可疑指令、部署实时监控系统来终止恶意行为等。但OpenAI也承认,他们无法阻止所有攻击。

随着AI能力的指数级增长,如何为其划定安全的伦理和技术边界,已成为整个行业面临的共同挑战。

因此,OpenAI给用户的建议是:充分意识到使用智能体所面临的风险,不随意向智能体透露个人敏感信息。

结语

ChatGPT Agent今天所展示的,还只是一个开始。

Agent不可避免会犯错,有时完成任务可能比人类手动操作更耗时。但它指明的方向,是清晰且不可逆转的。

我们正在从一个需要自己亲手操作每一个软件、点击每一个按钮的时代,迈向一个只需提出目标,便有智能体为你调度一切资源的时代。

而我们,需要学习如何与这个星球上最聪明的“打工人”共事。

END

本文为「智能进化论」原创作品。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。