当前位置：首页 » 资讯 » 新科技 » 正文

终极打工人诞生：OpenAI发布ChatGPT Agent，重新定义生产力边界

IP属地中国·北京 编辑：任飞扬 时间：2025-07-19 20:13:45

当Agent能够完成复杂任务，我们需要学习如何与这个星球上最聪明的“打工人”共事。
作者 | 小葳
AI Agent的时代，比所有人预想的，来得更早、更猛烈。
北京时间7月18日凌晨，科技圈再次被OpenAI投下的一枚重磅炸弹引爆。没有冗长的预热，没有华丽的舞台，Sam Altman和他的团队通过一场25分钟的发布会直播，推出ChatGPT Agent。
这不再是我们熟悉的那个“聊天机器人”，它是一个拥有了自己的虚拟电脑、能够自主思考、规划并执行复杂任务的“行动者”。
当看到ChatGPT Agent熟练地打开浏览器、分析网页、调用API、生成PPT、制作表格时，Sam Altman在直播中坦言：“对我来说，在观看它工作时，这是最让我感受到AGI的时刻之一。”
看完发布会，令人印象深刻的有三个方面：
第一，面对多目标的复杂任务，ChatGPT Agent虽然耗时长一些，但完成度很高；
第二， ChatGPT Agent可以随时被打断，人类用户可以随时补充信息和指导，或增加新任务，人机协作的体验更加凸显；
第三，Agent通过自己专属的虚拟计算机完成所有任务，并将执行任务过程可视化实时展现，用户可以回放视频查看Agent每一步动作。
从“能聊”到“能干”：
统一智能体，OpenAI的必然一步
ChatGPT Agent的诞生并非凭空而来，它是OpenAI在智能体（Agent）道路上不断积累的必然结果。今年早些时候，OpenAI陆续推出了两个重磅工具：Deep Research和 Operator。
然而，这两个工具如同两个“偏科生”。Deep Research擅长长文阅读，却无法与需要登录、交互的网页打交道；Operator擅长处理交互式与可视化的网页，却在深度分析和长文阅读方面力不从心。而许多真实世界的复杂任务，恰恰需要二者能力的结合。
正如Sam Altman在发布会上所说：“人们想要一个统一的智能体，它能自主运行，使用它自己的电脑，帮助人们完成真正复杂的任务。它能够无缝地切换，从思考到采取行动。它能使用各种工具，比如调用终端、在网页上点击操作，甚至能生成电子表格、幻灯片等文件，以及具备更多功能。”
ChatGPT Agent正是两者“强强联合”的实现，它融合了Deep Research的分析能力和Operator的执行能力，相当于赋予了Agent“大脑”和“双手”。
真正完成复杂任务：
自主选择工具，可视化执行过程
发布会上演示的第一个demo是一个多目标的复杂任务，用户9月份要出席朋友婚礼，需要准备服装、礼物、预订酒店等一揽子事情，用户把这些需求一股脑抛给Agent：
- 一套与所有场合的着装要求相匹配的服装（男士）。
- 提出五个服装选项。选择一些轻奢档次的服装，并应与场地和天气相配
- 找到那些两端都有几天缓冲期的酒店。
- 使用Booking进行预订，并务必检查可用性和当前价格。
- 同样别忘了为新人挑选一件礼物，价格最好在500美元以内。
Agent确认关键需求后就开始工作。整个任务完成花费了20分钟左右，在发布会最后，提供了完善的方案。5件服装备选直接提供了价格对比和购买链接。
当用户提出新增要求，安排一个包括美国职业棒球联盟（MLB）所有运动球场参观的旅行计划时，Agent直接给出精确到天的Excel行程表格。
Agent所有动作都是通过专属虚拟电脑完成，这台电脑上安装了很多不同的工具，Agent能自行选择如何使用。
同时，Agent将它执行任务的全过程展示为一个可视化的电脑屏幕，并在不断变化的对话框中显示文本形式的思维链过程，也就是Agent在想什么，它决定下一步做什么。
揭秘Agent的工作台：
一台虚拟电脑和它的工具集
要理解ChatGPT Agent的强大，首先要看它的“工作台”——一台专属的虚拟电脑。在这个工作台上，集成了一些强大的工具：
文本浏览器 (Text Browser)：和Deep Research工具类似，它能快速抓取和解析大量网页的文本内容，进行高效的搜索和信息提炼，这让它能够非常高效快速阅读大量网页并进行搜索，是Agent高效处理信息的“利器”。可视化浏览器 (Visual Browser)：和operator工具类似，这是Agent的“眼睛”和“手”。让Agent能像人一样“看”到网页的图形界面，进行点击、滚动、拖拽、填写表单等操作，轻松应对为人类设计的复杂交互界面。
终端 (Terminal)和API，通过与终端的连接，Agent可以运行代码、进行复杂的数据分析、处理文件，甚至直接生成可编辑的PowerPoint演示文稿和Excel电子表格。发布会演示中，Agent自行编写代码编译幻灯片，并调用图像API美化页面的场景，令人印象深刻。
通过API，Agent能够调用外部服务。包括公共API，以及用于访问你私有数据源的API，比如谷歌云端硬盘，谷歌日历，github，sharepoint等等。
拥有工具是一回事，懂得何时使用何种工具，则是更高维度的智能。OpenAI通过强化学习（Reinforcement Learning）的训练方式，学会在面对复杂任务时，自主规划并智能地选择最优工具组合。
比如，当被要求预订餐厅时，Agent可能会先用文本浏览器进行海量筛选，然后切换到可视化浏览器查看菜品图片，最后确认空位并完成预订。
从“指令-响应”到“委托-协作”：
人机协作的全新体验
如果说完成复杂任务是ChatGPT Agent的“硬实力”，那么其高度协作的交互模式则是它的“软实力”，也是它与其他AI工具显著区别。
过去，我们与AI的交互是僵硬的。一旦任务下达，我们能做的只有等待。而ChatGPT Agent被设计成一个真正的“协作伙伴”。
用户和智能体随时都能够主动与对方沟通，是ChatGPT Agent重要的交互理念。在ChatGPT Agent执行任务的任何时刻，用户都可以随时“插话”：
“Agent模型的一个关键能力是能够被随时打断，就像是在进行多轮对话。用户可以插话，引导它。”ChatGPT Agent研发人员表示。
用户可以中途补充新的要求（哦对了，再帮我找一双9.5码的黑皮鞋），可以纠正它的方向，甚至可以完全改变任务（我忘了提这件事，或者你的进度如何？做得怎么样了？）。Agent会理解新的指令，并在不丢失已有进度的前提下，继续工作。
同时，Agent也会主动沟通。在信息不足时，它会提出澄清性问题让用户确认；在执行关键操作（如发送邮件、下单支付）前，Agent会主动寻求用户的最终确认。这种双向沟通机制，确保了任务始终在用户的掌控之中。
更重要的是，用户拥有最终的“接管权”。如果对Agent的操作不满意，可以随时暂停，直接进入它的虚拟环境，自己动手修改。这极大增强了用户的安全感和控制感，使得人与AI之间建立起一种前所未有的信任关系。
碾压级跑分：
当Agent的能力被量化
为了证明ChatGPT Agent并非华而不实的“花架子”，OpenAI公布了一系列基准测试成绩。这些数据，将其强大的能力清晰地量化了出来。
在被誉为“人类最后考试”的HLE (Humanity’s Last Exam)基准上，该测试旨在衡量AI在各学科专家级问题上的表现，ChatGPT Agent取得了41.6%的分数，几乎是此前o3和o4-mini模型的两倍。前沿数学基准FrontierMath上，Agent在工具的辅助下，达到了27.4%的准确率，显著优于o3和o4-mini。
在衡量网页浏览和信息定位能力的BrowseComp和WebArena测试中，Agent同样表现优异。
在与办公场景息息相关的SpreadsheetBench（电子表格编辑能力测试）中，Agent的得分高达45.5%
这些数字背后，反映出一个清晰的信号：ChatGPT Agent在通用推理、专业知识、工具使用和任务执行等多个维度上，已经达到了一个全新的高度。它不再是一个只能在特定领域展现才华的工具，而是一个具备广泛能力的“通才”。
“前沿与实验性”：
奥特曼的谨慎与Agent的风险预警
在展示强大能力的同时，Sam Altman也反复强调了这款产品的“前沿和实验性”，并坦诚地揭示了其潜在的风险。这体现了OpenAI在推动技术边界时的审慎态度。
研发团队称，目前最大的担忧之一，是被称为“提示词注入”（prompt Injection）的新型攻击。
当Agent访问恶意网站时，网站上的隐藏指令可能会“诱骗”它执行不当操作，比如泄露用户的敏感信息。
对此，OpenAI构建了多层防御体系，包括训练模型忽略可疑指令、部署实时监控系统来终止恶意行为等。但OpenAI也承认，他们无法阻止所有攻击。
随着AI能力的指数级增长，如何为其划定安全的伦理和技术边界，已成为整个行业面临的共同挑战。
因此，OpenAI给用户的建议是：充分意识到使用智能体所面临的风险，不随意向智能体透露个人敏感信息。
结语
ChatGPT Agent今天所展示的，还只是一个开始。
Agent不可避免会犯错，有时完成任务可能比人类手动操作更耗时。但它指明的方向，是清晰且不可逆转的。
我们正在从一个需要自己亲手操作每一个软件、点击每一个按钮的时代，迈向一个只需提出目标，便有智能体为你调度一切资源的时代。
而我们，需要学习如何与这个星球上最聪明的“打工人”共事。
END
本文为「智能进化论」原创作品。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

我国遥感四十号 03 组卫星发射任务获得圆满成功

我国成功发射遥感四十号03组卫星

争做网红的二代，困在接班Vlog里

我国为何将主动撞击一颗小行星？远不止“撞一下”那么简单！

小米米家 App 内测 11.0.513 版：设计焕新，新增“场景”页面

清华系前腾讯Robotics X核心成员创业，业内首款能“单手玩手机”的灵巧手来了｜涌现新项目

全站最新

4款纯电SUV争夺全能选手！精密、实用、激进还是保守？

我国遥感四十号 03 组卫星发射任务获得圆满成功

我国成功发射遥感四十号03组卫星

争做网红的二代，困在接班Vlog里

热门推荐

我国成功发射遥感四十号03组卫星

我国遥感四十号 03 组卫星发射任务获得圆满成功

我国成功发射遥感四十号03组卫星

争做网红的二代，困在接班Vlog里

我国为何将主动撞击一颗小行星？远不止“撞一下”那么简单！

小米米家 App 内测 11.0.513 版：设计焕新，新增“场景”页面

清华系前腾讯Robotics X核心成员创业，业内首款能“单手玩手机”的灵巧手来了｜涌现新项目

集成40+大模型、预置100+场景，AI助手重塑出版编辑工作流 | 创新场景

OpenAI预计五年内投入1150亿美元，2030年营收超两千亿美元

${阿里通义千问Qwen3-Max-Preview上线多语言及推理能力实现跨越式升级！

百度收购YY直播有新动作：正式融入百度体系，职级薪酬考核全对齐

中国能否诞生马斯克式企业家？关键在于社会观念转变与硬核创新支持

OpenAI研究人员：破解大语言模型“幻觉”需从评估指标入手，避免奖励猜测

华为揭牌西南首个智慧园区样板点赛力斯超级工厂领航AI+制造新范式

新能源与互联网双向赋能：凯利普借势互联网开启产业升级新征程