当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI发布ChatGPT Agent：部分能力超越人类，但做电子表格仍不如人类

IP属地中国·北京 编辑：沈如风第一财经资讯 时间：2025-07-18 14:27:19

7月，OpenAI尚未按照此前计划发布GPT-5，智能体方面的更新先行面世了。
北京时间7月18日凌晨，OpenAI直播发布了ChatGPT Agent，这一智能体融合了Operator智能体网页交互能力以及Deep Research功能，使ChatGPT内置计算机能帮助用户完成复杂的多步骤任务。
“现在ChatGPT可以思考和行动，能主动从技能工具箱中选择工具，完成一些任务。”OpenAI介绍，这些任务包括“查看我的日历并根据近期新闻介绍即将举行的会议”“分析三个竞争对手并创建幻灯片”等。此外，用户还可以执行一些重复任务，例如将屏幕截图转换为可编辑PPT、用新的财务数据更新电子表格、重新安排会议。
据介绍，ChatGPT的工作过程包括浏览网站、过滤结果、提醒用户登录相关账号、运行账号、分析、创建电子表格和幻灯片。
此前OpenAI曾单独发布Operator和Deep Research功能，其中Operator也是一个智能体，可以滚动、点击网页，帮用户完成餐厅预订等任务，Deep Research则主要面向信息深度分析和整合任务。OpenAI称，此次ChatGPT的核心更新是创建了一个统一的智能体系统，使Operator调动网站的能力、Deep Research整合信息的能力、ChatGPT对话能力融为一体。此次发布的智能体系统可以调用可视化浏览器、文本浏览器、终端工具、API接口，分别可用于与网页交互、处理大量文本、运行代码或下载文件、访问GitHub等应用数据。
从基准测试表现看，在跨学科专家级测试Humanity’s Last Exam中，ChatGPT Agent回答准确率为41.6%，超过Deep Research的26.6%、o3模型的24.9%；在数学基准测试FrontierMath中，ChatGPT Agent准确率为27.4%，高于o4 mini的19.3%和o3的10.3%；在针对真实知识工作任务的内部评测中，ChatGPT Agent在约半数案例中的表现与人类持平或超过人类；在现实数据科学任务DSBench测试中，ChatGPT的分析与建模准确率分别为89.9%和85.5%，超过人类水平；在衡量模型承担一到三年投资银行分析师建模任务能力的内部基准上，准确率高于o3和Deep Research。

不过，虽然ChatGPT Agent在SpreadsheetBench测试（评估模型编辑真实场景电子表格的能力）中，表现超过OpenAI的其他模型，但其最高得分45.5%还是远低于人类得分71.3%。

OpenAI称，此次更新是一个开始，公司将继续定期迭代改进。
Agent的能力很大程度上取决于基础模型的能力。发布ChatGPT Agent后，OpenAI最受关注的更新还是推出GPT-5。此前OpenAI CEO奥尔特曼表示，GPT-5可能于今年夏天推出，OpenAI代表此前也曾透露，初步预计的发布时间是在今年7月。当前，面对来自DeepSeek等厂商的竞争，OpenAI还是需要通过推出新的基础模型来证明自身的领先地位。
从Agent演进上看，有Agent开发者告诉记者，今年Agent预计可以在数十步较复杂的工具调用中，做到90%的准确率，基本达到可商用状态。但基础模型的能力还是还有所欠缺，基础模型还难以做到自主调用上万个工具并自主执行。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

养“龙虾”安全吗？对话吴世忠：防止AI智能体滥用代理权限

全国人大代表、华友钴业董事长陈雪华：尽快构建退役动力电池回收体系

人工智能公司Anthropic就“供应链风险”认定起诉美国国防部

苹果MacBook Neo电池寿命揭晓

“养虾”别“瞎养”

各区自研AI智能体保障信息安全

全站最新

养“龙虾”安全吗？对话吴世忠：防止AI智能体滥用代理权限

全国人大代表、华友钴业董事长陈雪华：尽快构建退役动力电池回收体系

人工智能公司Anthropic就“供应链风险”认定起诉美国国防部

苹果MacBook Neo电池寿命揭晓

热门推荐

养“龙虾”安全吗？对话吴世忠：防止AI智能体滥用代理权限

成本压力推动手机终端涨价 AI转型成破局关键

科技企业纷纷入局“养虾” AI智能体从概念走向应用

全国人大代表、华友钴业董事长陈雪华：尽快构建退役动力电池回收体系

全国人大代表、华友钴业董事长陈雪华：尽快构建退役动力电池回收体系

“人工智能+”驱动产业蝶变文旅融合文化出海谱新篇

全国人大代表、悦达集团董事长张乃文：加快车网互动推进绿色转型

“人工智能+”驱动产业蝶变文旅融合文化出海谱新篇

苹果首款折叠屏手机将至产业链个股闻风而动

人工智能公司Anthropic就“供应链风险”认定起诉美国国防部

刘伟：构建本土化生态，为“安全养龙虾”护航

苹果MacBook Neo电池寿命揭晓

“养虾”别“瞎养”

各区自研AI智能体保障信息安全

苹果MacBook Neo笔记本SSD速度约为MacBook Pro的1/8