当前位置：首页 » 资讯 » 新科技 » 正文

刚刚,OpenAI发布GPT-5-Codex:独立工作超7小时,还能审查大型项目

IP属地中国·北京 机器之心Pro 时间：2025-09-16 10:27:42

机器之心报道
编辑：Panda
凌晨 1 点，OpenAI 发布了GPT-5-Codex
从名字也能看出来，这是针对智能体编程任务进行了专门优化的 GPT-5。OpenAI 博客介绍说，GPT-5-Codex 的训练重点放在真实的软件工程任务上。它既能在短时间的交互式会话中快速响应，也能独立完成冗长复杂的任务。它的代码审查（code review）能力可以在代码上线前发现关键漏洞。

GPT-5-Codex 已经在 Codex 的所有使用场景中上线，包括 Codex CLI、IDE 扩展、网页端、移动设备以及 GitHub 中的代码审查。它是云端任务和代码审查的默认模型，开发者也可以通过 Codex CLI 或 IDE 插件，在本地任务中选择使用它。顺带一提：Codex 已包含在 ChatGPT 的 Plus、Pro、Business、Edu 和 Enterprise 订阅中。
发布两个半小时后，OpenAI CEO 山姆・奥特曼激动地表示GPT-5-Codex 的流量已经占到了 Codex 流量的 40% 左右，并且他预计该模型在今天之内就将成为 Codex 的流量主体。

OpenAI 表示：「自从 4 月推出 Codex CLI、5 月推出 Codex Web 以来，Codex 已逐步演变成更高效的编程助手。两周前，我们把 Codex 整合成一个统一的产品体验，并与 ChatGPT 账号打通。这样，你可以无缝切换本地环境和云端任务，不会丢失上下文。」
该模型一发布就收获了诸多好评，甚至有人表示这是「自切片面包发明以来最好的东西」。

OpenAI 已经以附录形式将 GPT-5-Codex 加入了 GPT-5 系统卡。

地址：https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/
下面我们就来更详细地了解一下 GPT‑5-Codex。
GPT‑5-Codex
GPT-5-Codex 重点优化了在真实工程场景中的自主式（agentic）软件工程能力
它接受过完整项目构建、功能开发、测试编写、调试、大规模重构和代码审查等复杂任务的训练。相比 GPT-5，它更易于控制，遵循 AGENTS.md 的指令更好，代码质量更高。OpenAI 表示：「你只需要告诉它想要什么，而不用写冗长的风格说明。」
其在 SWE-bench Verified（软件工程）和 Code refactoring tasks（代码重构）两个基准上的准确度表现都优于 GPT-5 (high)。

值得一提的是，OpenAI 在 SWE-bench Verified 上的成绩这一次终于使用了该数据集中所有的共 500 个任务，而不是像之前那样只使用了 477 个任务（曾因此备受批评），OpenAI 声称之前只使用 477 个任务的原因是「有部分任务无法在基础设施上运行，而现在这一问题已解决。」
至于另一个代码重构基准 Code refactoring tasks 则包含许多来自大型成熟软件库的重构任务，覆盖 Python、Go、OCaml 等语言。比如 Gitea 的一个 PR，就修改了 232 个文件、3541 行代码，为应用逻辑引入 ctx 变量。
GPT-5-Codex 不仅性能更优，也能根据任务复杂度动态调整思考时间
它结合了两种关键能力：一是与开发者配合的交互式会话，二是对长任务的持久自主执行。
在处理小型请求或对话时，GPT-5-Codex 反应更快；而在处理复杂任务（如大型重构）时，它能持续工作更久。OpenAI 表示：「在测试中，我们看到GPT-5-Codex 能独立运行超过 7 小时，不断迭代实现、修复测试，最终交付可用代码。」
OpenAI 还分享了他们的内部使用数据：
用户请求中，用户交互中 token 数量（包括隐藏的推理和最终的输出）最少的 10% 情况下，GPT-5-Codex 的 token 消耗比 GPT-5 少 93.7%。用户交互中 token 数量最多的 10% 情况下，它会投入更多时间，进行更深入的推理、编辑、测试和迭代。

GPT-5-Codex 也专门训练了代码审查能力，可以主动发现关键漏洞。它会遍历代码库，分析依赖，并运行代码和测试来验证正确性。OpenAI 用热门开源项目的最新提交（commit）做了评估，并让经验丰富的工程师进行了验证，结果发现：GPT-5-Codex 的审查意见更少出现错误或无关内容，更能把注意力集中在关键问题上。

在前端任务上，GPT-5-Codex 表现可靠。它能生成美观的桌面应用，也在移动网站的偏好测试中显著提升。云端环境下，它还能读取你上传的图片或截图，检查自己的进度，并把结果截图返回。
GPT-5-Codex 针对 Codex CLI、IDE 插件、云环境和 GitHub 进行了深度优化，同时也支持多种工具调用。不过 OpenAI 也指出：「与通用的 GPT-5 不同，我们建议只在 Codex 或类似场景下使用 GPT-5-Codex。」
Codex 更新
除了发布 GPT-5-Codex，OpenAI 今天还宣布了 Codex 的一些升级，包含全新设计的 Codex CLI 以及新的 Codex IDE 插件。
Codex CLI
Codex CLI 是开源的。过去几个月里，OpenAI 基于社区反馈重新设计了 CLI，让它更适合「自主编程」的工作流，使模型能成为更强大、更可靠的搭档。
现在用户可以在 CLI 中直接添加图片，例如截图、线框图和设计图。这样可以建立共享上下文，让设计决策更清晰，并更容易得到符合预期的结果。
在处理复杂任务时，Codex 会用待办清单（to-do list）跟踪进度，还支持 web 搜索和 MCP 等外部系统连接工具，整体的工具调用更准确。
终端界面也升级了：工具调用和代码差异现在格式更清晰，更容易阅读。

批准模式（approval mode）简化为三种：
只读：需要明确批准才能修改；自动：拥有完整工作区权限，但在工作区外仍需批准；完全访问：可以读取任意文件，并在有网络访问的情况下运行命令。
CLI 还支持压缩对话状态，方便管理更长的会话。
Codex IDE 插件
Codex 也能在 IDE 中直接使用。这个插件支持 VS Code、Cursor 以及其他 VS Code 分支。它能把 Codex 带进编辑器，让用户能无缝预览本地改动，并直接用 Codex 修改代码。

OpenAI 介绍了在 IDE 中使用 Codex 的几个优势：
你可以写更简短的提示词，得到更快的结果，因为 Codex 会自动利用上下文，例如你打开的文件或选中的代码。你可以在云端和本地环境之间流畅切换。比如，在编辑器里直接创建云端任务、跟踪进行中的工作或审查已完成的任务。如需要调整，你可以在 IDE 中直接打开云端任务，Codex 会保留上下文。
云端的 Codex
除了 CLI 和 IDE 插件，新的 GitHub 集成也让 Codex 的云端智能体更贴近开发者的日常工作流。用户无需离开编辑器或 GitHub，就能把任务交给 Codex。

OpenAI 表示，他们也一直在幕后不断提升云端性能，包括：
通过缓存容器（caching containers），新任务和跟进任务的完成时间缩短了 90%。Codex 会自动检测常见的初始化脚本并执行，帮你完成环境配置。在配置了网络权限后，它还能在运行时执行 pip install 等命令，安装所需依赖。
和 CLI、IDE 一样，云端 Codex 也支持使用图片。你可以上传前端设计规范或 UI bug 截图。Codex 会在浏览器里运行自己生成的内容，检查效果，并把截图附在任务或 GitHub PR 中。
代码审查
Codex 现在也支持代码审查功能，可以发现关键缺陷。和静态分析工具不同，Codex 会：
对比 PR 的目标和实际改动，分析整个代码库和依赖关系，运行代码和测试来验证行为。
这种审查力度，通常只有最仔细的人类工程师才能做到。Codex 正好补上这一缺口，帮助团队更早发现问题，减轻审查负担，让上线更放心。

在 GitHub 上启用后：
当 PR 从草稿变为可审查状态时，Codex 会自动给出分析。如果它建议修改，你可以直接在同一讨论线程里让它实现。你也可以手动请求审查，比如在 PR 里输入「@codex review」，甚至给额外指令，如「@codex review for security vulnerabilities」（检查安全漏洞）或「@codex review for outdated dependencies」（检查过时依赖）。
OpenAI 表示：「在 OpenAI 内部，Codex 已经审查了我们绝大多数 PR，每天能发现数百个问题，很多在人工审查开始之前就已经被拦下。这让团队能更快推进，同时保持信心。」
OpenAI 如何让 Codex 更安全？
OpenAI 还介绍了在开发 Codex 时对代码与数据安全的保护措施，他们也部署了一些防范潜在滥用的手段。
默认沙箱环境：无论本地还是云端，Codex 默认运行在沙箱环境中，且关闭网络访问。这可以避免它在你的电脑上执行有害操作，也能减少来自不可信来源的提示词注入风险。权限机制：在执行可能危险的操作前，Codex 会请求许可。它也经过训练，会运行命令来验证自己的输出。可配置的安全设置：开发者可以根据风险承受度调整设置。在云端，可以限制网络访问只允许可信域名；在 CLI 和 IDE 插件中，开发者可以决定是否批准 Codex 运行命令，或允许它使用网页搜索、连接 MCP 服务器。这样能扩展能力，但也会增加风险。
OpenAI 也给出了建议：「我们始终建议开发者在上线前先检查 Codex 的工作结果。Codex 会在每个任务中提供引用、终端日志和测试结果，方便人工验证。」但 OpenAI 也强调：Codex 应作为附加审查者，而不是完全取代人工审查。
和 GPT-5 一样，OpenAI 依然将 GPT-5-Codex 在生物与化学领域的任务归类为 High 能力，并采取了相应的安全措施，以尽量减少潜在风险。
价格与可用性
Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 订阅中。
Plus、Edu、Business 用户：每周可覆盖几次集中的编程会话。Pro 用户：支持一整周、多个项目的完整工作量。Business 计划：可以额外购买积分，突破默认上限。Enterprise 计划：提供共享积分池，按实际使用付费。
目前用户还无法通过 API Key 使用 Codex CLI，但 OpenAI 也表示很快（soon）将通过 API 开放 GPT-5-Codex。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为联合云南建投物流重磅发布智慧物流样板点，并启动“云链物流大模型”研发

给大模型排名次，两个博士一年干出120亿独角兽

中核集团自主研发注射用BNCT硼药进入临床试验阶段

导弹崩飞实验室、蚊子生产基地，这就是2025年的Nature十大人物！

Colorii展示自带E - ink屏固态硬盘盒，具多实用功能将上市

这家医院又有重磅发现！研究成果揭示肿瘤免疫治疗新靶点

全站最新

华为联合云南建投物流重磅发布智慧物流样板点，并启动“云链物流大模型”研发

给大模型排名次，两个博士一年干出120亿独角兽

中核集团自主研发注射用BNCT硼药进入临床试验阶段

导弹崩飞实验室、蚊子生产基地，这就是2025年的Nature十大人物！

热门推荐

华为联合云南建投物流重磅发布智慧物流样板点，并启动“云链物流大模型”研发

给大模型排名次，两个博士一年干出120亿独角兽

中核集团自主研发注射用BNCT硼药进入临床试验阶段

导弹崩飞实验室、蚊子生产基地，这就是2025年的Nature十大人物！

Colorii展示自带E - ink屏固态硬盘盒，具多实用功能将上市

这家医院又有重磅发现！研究成果揭示肿瘤免疫治疗新靶点

中国AI模型四巨头罕见同台发声

荣耀张潇：Power2手机首销日全渠道销量为上代112%

钓鱼邮件最新骗术曝光：用HTML表格绘制二维码躲过系统检测

江苏省微型、轻型、小型无人驾驶航空器适飞空域范围发布

消息称OpenAI要求外包人员上传真实工作成果，律师警告称风险极高

快评丨“死了么”走红，比改名更该正视的是独居隐忧

“死了么”app团队：会认真考虑改名建议

Keychron Nape Pro轨迹球亮相，具备多项特色参数

马斯克AI百科Grokipedia条目数突破600万，已达英文维基百科86%