当前位置: 首页 » 资讯 » 新科技 » 正文

终于来了,OpenAI的智能体,但这次掌声不多

IP属地 中国·北京 编辑:钟景轩 果壳 时间:2025-07-18 20:08:38

我们终于等到了 OpenAI 的智能体(Agent)了。

今天凌晨,Sam Altman 亲自带队发布了 ChatGPT 的通用型 Agent 模式。


比起当年 ChatGPT 带给所有人的震撼,姗姗来迟的 OpenAI Agent 少了很多惊喜,因为早在年初我们就见到了类似的产品形态——当时“一号难求”的 Manus,以及 Minimax、Kimi 等陆续发布的相似产品。

“起大早,赶晚集”,技术强大如 OpenAI,也难免有卷不过的时候。

OpenAI 的 Agent,您终于来了

这年头发布 AI 产品,“惊喜”和强大往往是两回事——毕竟是 Open AI。

在产品的直播演示里,这款 Agent 展示出的能力还是令人期待的——Agent 模式可以自己访问网页、调用终端、自动下单,执行从旅行规划、PPT 制作到图像生成与在线购物的整套流程。


据介绍,ChatGPT Agent 即日起向 Pro、Plus 和 Team 版用户开放,Enterprise 和 Education 版用户将于 7 月获得使用权限。Pro 版用户每月 400 次,Plus 和 Team 用户每月 40 次。

为了实现从“Chat”到“Agent”的表现,OpenAI 结合了 Operator(视觉层交互代理)和 Deep Research(多步骤网页推理)两项核心研究成果,一个是“手脚”一个是“大脑”来共同完成任务的拆解、思考、行动的闭环。

这需要三大模块工具的支持:1。 文本浏览器 (Text-based Browser)来处理密集型网页阅读任务,提取信息;2. 可视化浏览器 (Text-based Browser),实现在图形界面中操作鼠标点击、输入、截图等;3. 终端工具 (Terminal),来运行代码、生成文件、调用 API、与其他系统集成。


据 OpenAI 介绍,这款 Agent 不仅能执行,还能评估执行效果,并在每一步中动态选择最优路径。而用户可以随时插话调整指令,或临时接管任务进程。

其实拆解任务和优化任务一直是 Agent 的一个难点。我们可以把 Agent 想象成一个小团队,有产品、品牌、数据,现在用户作为老板下达了一个指令:给我设计一款年轻人喜欢的手机壳。然后大家开始分头行头,市场做调研、品牌做推广,数据盯反馈。

不过这个过程中,大家不免会有冲突,有逾矩,比如市场调研市场可以去发调查问卷,数据部也可以看大数据报告,到底谁来做最高效?所以好的 Agent 总是能自我优化,追求最快、最好。

Agent 这么火?它和 Chatbot 有啥区别?

ChatGPT Agent 和 ChatGPT 到底有什么区别?

基本的解释是:Agent 可以完成任务,Chatbot 可以完成对话。这个“任务”和“对话”到底有什么分别?


举个很简单的例子,我现在要决定今天中午吃什么,我可能会考虑类型、距离、口味,并在最后定一家外卖下单,这就是一个 Agent 式的任务;而一个 Chat 式的任务是,当我已经决定吃日料,我来问:最短距离哪家日料评分最高。

说白了 Agent 能完成的任务,更复杂、更高维、需要更多的工具。

比如,在 OpenAI 的演示里,操作员让 OpenAI Agent 挑一套适合参加婚礼的礼服和礼物。Agent 先用文本浏览器打开用户给的网页信息确认婚礼的日期、天气、位置,然后用可视化浏览器展示可选的礼服效果,之后再继续搜索礼物……


另一个操作员交代的任务是给团队一只叫 Bernie 的狗狗,也是团队吉祥物做一批笔记本贴纸,并且订购 500 份邮寄到相应的地址。

Agent 先是用终端工具 Imagen 生成动漫版图片,设计贴纸然后再访问 Sticker Mule 网站,把设计好的图上传到网站,填写了贴纸数量、尺寸等等,选择订购 500 分,任务最终停留在请求信用卡信息上。

做 PPT,也是一个很典型的 Agent 式任务。

OpenAI 团队演示了让 Agent 从 Google 云中提取分析评估数据并制作成 PPT,直接用图表展示结果。Agent 链接 Google 云 API 进行搜索,并读取相关内容信息,然后使用图像生成功能,在生成一次 PPT 后,Agent 进行了一次优化,生成了一张视觉上更流畅的 PPT。

咋就迟到了?

奥特曼想做 Agent 不是一天两天了。

其实 OpenAI 早就公布过自己的“五级路线图”,一级 Chatbots(聊天机器人)、二级 Reasoners(推理者)、三级 Agents(代理)、四级 Innovators(创新者)、五级 Orgnazations(组织者)。

Agents 作为第三级是整个 AI 进化路径中,让 AI 从工具属性跃升到创新属性中必经的一环。

只不过奥特曼不是第一个发出 Agent 产品的。


今年 3 月, Manus 推出通用 Agent 产品,当时一夜之间大家全都在“万能的朋友圈”求测试账号,一个账号甚至最高炒到了一百万。

Manus 借势 Agent 东风更快速推出产品的很大一部分原因是他们没有自研大模型,而是用 Claude 等底层基础大模型来实现产品功能 ,并将各类功能组合封装,当时业内也称 Manus 是一款“套壳”产品。

Manus 之外,MiniMax、Kimi、Perplexity AI 都更先发布了通用 Agent 形态的产品。

所以说,OpenAI 这把推出 Agent 其实是缺乏了先发优势的,从 ChatGPT 到 Agent,OpenAI 在行业中的位置也从“抢先跑”到了“赶班车”。

除了时间压力,OpenAI 还不能忽视两方面的竞争压力——生态竞争、成本竞争。

一直以来重闭源的 OpenAI 在今年接连受到来自各类竞品的打击。比如 Deepseek,训练成本是自己的二十分之一,性能表现却跟自己产品差不多,本来靠闭源 API 商业化做到全球第一的 OpenAI 眼看着英伟达、英特尔、亚马逊、微软、AMD 等等科技大厂全部接入 DeepSeek,这让奥特曼都直接公开反思“闭源策略可能是个失误”。

成本优势势必会带来生态优势,这样的商业规律并不会在 AI 市场上失效。

而即使 OpenAI 在产品上保持优势,那些“差不多,但便宜很多”的竞争对手的集体围剿也会让他体会“被瓜分”的痛——这一点,奥特曼可以和一直阴阳他的马斯克谈谈心。

关于 Agent 的想象力,才刚刚开头

要我说,人类对 Agent 的开发不足 1%。

Agent 的出现和成熟可以完全颠覆一代人。就像互联网的出现对 90 后的影响,AI 的出现将会影响整个阿尔法世代。


从商业化的角度来看,目前大家对 Agent 最多的讨论就是场景化的难度。因为达到了可以“行动”的 Agent 势必涉及到跨应用的调用,比如在上述贴纸订购的演示里,网购平台的调用权限就必不可少。

但在我看来,这就像当时我们无法想象淘宝怎么说服店家上线一样,AI 时代应用的互通只是时间问题。

作为在这种大势之下的用户,我们其实更应该思考的是 Agent 对我们,以及后代在生活方式的转变——

设想一下,七八岁的孩子们从校门涌出,下午四点父母们还在工作,门口接孩子们的不是爷爷奶奶,也是接入了 Agent 的机器人,Agent 是妈妈们训练出来的,到了家,Agent 早就打开了空调,房间的温度正好。等到快要七点的时候,Agent 开始指挥炒菜机器人做饭,等着下班的爸爸妈妈。

再设想一下,一个对星座塔罗感兴趣的上班族想要搞个占星副业,Agent 直接搜集各种语言的占星资料翻译成中文,提取摘要做成报告,顺便指定一份学习计划。然后开始搜集文案引流灵感、做成海报发布在社交账号帮忙揽客。

再看 OpenAI 的“五级路线图”,Agent 不仅是 AI 从思考到行动的拐点,更是 AI 从被动到主动的拐点,当 AI 从工具化逐渐拟人化,人类的命运也将彻底改写。

作者:沙拉酱

编辑:卧虫

内文插图均来自 OpenAI

封面图Unsplash

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。