当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI发布GPT-5.2迎战Gemini，号称智能体编码最强，赶超人类专家，Altman料1月解除红色警报

IP属地中国·北京 华尔街见闻官方 时间：2025-12-12 10:19:35

OpenAI周四正式发布GPT-5.2系列模型，打响了迎战谷歌Gemini 3的第一枪。CEO Sam Altman淡化Gemini 3带来的冲击，预计明年1月就可以解除所谓“红色警报”的状态，以非常强劲的姿态重回常态
GPT-5.2是OpenAI迄今最先进的人工智能（AI）模型，针对专业工作场景进行了全面优化，创多个基准测试的行业记录，其中的GPT-5.2 Thinking刷新了SWE编码能力测试的历史最高分，也是OpenAI首个性能达到或超过人类专家水平的模型。
OpenAI应用业务的CEO Fidji Simo表示，GPT-5.2在创建电子表格、制作演示文稿、图像识别、代码编写和长文本理解等方面均优于前代产品，旨在"为人们创造更多经济价值"。OpenAI的研究副总Adain Clark称，GPT-5.2在数学推理方面的进步意味着它能更好地处理金融建模、预测和数据分析等任务。

OpenAI宣布，周四当天GPT5.2就在ChatGPT上线，面向Plus,、Pro、Go、Business和 Enterprise这些付费套餐的用户, 共推出Instant、Thinking和Pro三个版本，API也同步开放给所有开发者。
在ChatGPT中，付费用户可使用三个版本的GPT-5.2，且在未来三个月内仍可继续使用GPT-5.1。在API平台，GPT-5.2定价为每百万输入token 1.75美元、每百万输出token 14美元，缓存输入可享受90%折扣。虽然单token价格高于GPT-5.1，但OpenAI表示，由于模型效率更高，达到相同质量水平的总成本反而更低。

新模型发布是OpenAI对Gemini 3掀起又一轮竞争的正式回应。本周稍早媒体称OpenAI的CEO Sam Altman最近发布内部"红色警报"备忘录，要求公司将资源集中用于改进ChatGPT。几周前，谷歌推出的Gemini 3因其推理和编码能力广受好评，迅速登上LMArena和Humanity's Last Exam等权威排行榜榜首，给OpenAI带来压力。
评论认为，GPT-5.2 与其说是重新发明，不如说是对OpenAI最近两次升级的整合。8月发布的 GPT-5 是一次重置，为统一系统奠定了基础，它可以在快速默认模型和更深入的“思考”模式之间切换。11月发布的 GPT-5.1专注于使该系统更加友好、更具对话性，并更适合智能体和编码任务。GPT-5.2似乎进一步提升了所有这些进步，使其成为生产应用更可靠的基础。
三个版本GPT5.2分别主打快速、深度、智能可靠
对于周四提供的三个版本GPT 5.2，OpenAI分别介绍称，Instant是快速高效的日常工作和学习助手，在信息查询、操作指南、技术写作和翻译方面均有显著提升。，并延续了 GPT-5.1 Instant 中更亲切的对话风格。早期测试者尤其注意到，GPT-5.2 的解释更加清晰，能够直接呈现关键信息。
Thinking 专为深度工作而设计，能够帮助用户更高效地完成更复杂的任务，尤其是在编码、总结长篇文档、回答有关上传文件的问题、逐步进行数学和逻辑运算、以更清晰的框架和更有用的细节辅助规划和决策方面。
Pro是需要高质量回答难题时“最智能、最可靠”的选择。早期测试表明，它在编程等复杂领域表现更出色，且重大错误更少。
性能全面领先，多项基准测试创新高
GPT-5.2在多个关键基准测试中刷新了行业纪录。在GDPval测试中，该模型在涵盖44个职业的知识工作任务上，有70.9%的表现达到或超过行业专家水平。OpenAI称，GPT-5.2 Thinking完成这些任务的速度是专家的11倍以上，成本不到专家的1%。

在编码能力方面，GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成绩，在SWE-bench Verified上更是达到80%的新高。这一基准测试真实世界软件工程任务，涵盖四种编程语言。OpenAI的产品负责人Max Schwarzer表示，GPT-5.2在代码生成和调试方面取得重大进步，Windsurf和CharlieCode等编码初创公司报告称该模型实现了"最先进的智能体编码性能"。

OpenAI声称GPT-5.2 Thinking是"世界上最好的视觉模型"，在图表推理和软件界面理解方面的错误率降低了约一半。在长文本处理上，该模型在OpenAI MRCRv2测试中率先在25.6万token范围内实现近100%的准确率，使其特别适合深度文档分析和多源信息工作流。
在科学研究领域，GPT-5.2 Pro在GPQA Diamond测试中达到93.2%的准确率，GPT-5.2 Thinking紧随其后为92.4%。在专家级数学测试FrontierMath上，GPT-5.2 Thinking解决了40.3%的问题，创下新纪录。OpenAI称GPT-5.2 Pro和GPT-5.2 Thinking是"世界上最好的科学家助手模型"。

Altman称Gemini 3影响没担心的大
面对Gemini 3带来的竞争压力，Altman周四接受媒体采访时表示：“Gemini 3对我们指标的影响可能没有我们担心的大。”他预计，OpenAI将在明年1月前以“非常强势的地位”退出红色警报模式。
关于红色警报的原因，Simo在记者会上解释称："我们宣布红色警报是为了向公司发出信号，表明我们希望将资源集中在某个特定领域，这是明确优先事项和可降级事项的方式。" 她强调，虽然ChatGPT获得了更多资源投入，但GPT-5.2的发布已筹备多月，并非因红色警报而匆忙推出。
虽然Altman据称在内部备忘录中将图像生成列为优先事项，但此次OpenAI的新品发布并未包含新的图像生成器。据报道，OpenAI计划在明年1月发布另一款新模型，将提供更好的图像生成、更快的速度和更强的个性化能力，但公司周四未确认这一计划。
OpenAI还宣布推出年龄预测软件，以便为18岁以下用户提供内容保护。Simo透露，公司将在明年第一季度推出"成人模式"，Altman此前表示该模式可能允许"为经过验证的成年人提供情色内容"等用途。
企业客户成为争夺焦点
GPT-5.2的发布明确瞄准企业市场。OpenAI本周早些时候发布的新数据显示，过去一年其AI工具的企业使用量大幅飙升。公司称，ChatGPT Enterprise平均用户表示AI每天为他们节省40至60分钟，重度用户每周节省超过10小时。
Notion、Box、Shopify、Harvey和Zoom等企业客户观察到，GPT-5.2展示了最先进的长周期推理和工具调用性能。Databricks、Hex和Triple Whale发现该模型在智能体数据科学和文档分析任务上表现出色。Cognition、Warp、Charlie Labs、JetBrains和Augment Code则表示GPT-5.2提供了最先进的智能体编码性能。
在工具调用方面，GPT-5.2 Thinking在Tau2-bench Telecom测试中达到98.7%的准确率，展示了其在长时间、多轮次任务中可靠使用工具的能力。在一个涉及航班延误、转机失败和医疗座位需求的复杂客户服务案例中，GPT-5.2成功协调了重新预订、特殊协助座位和补偿等全部流程。

这一战略转向正值关键时刻。OpenAI已承诺在未来几年投入超过1万亿美元用于AI基础设施建设，但如今谷歌正在迎头赶上。据报道，OpenAI的推理计算支出大部分以现金支付而非使用云积分，表明公司的计算成本已超出合作伙伴关系和积分所能补贴的范围。对推理模型的加倍投入可能形成恶性循环：为赢得排行榜而增加计算支出，然后为大规模运行这些高成本模型而进一步增加支出。
在定价策略上，虽然ChatGPT订阅价格保持不变，但API中的GPT-5.2单token价格高于GPT-5.1，不过仍低于其他前沿模型。OpenAI目前没有弃用GPT-5.1、GPT-5或GPT-4.1的计划，并承诺会提前充分通知开发者任何弃用计划。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

新能源汽车静默革命：从轰鸣到低语，聆听未来的声音图景

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

小米VS华为！澎程新车对标问界，智界RX盯上小米YU7

出走米哈游1000多天后，蔡浩宇的AI远征“撞墙”

华为深圳场景化解决方案发布，破解“模型强、场景弱”难题

全站最新

新能源汽车静默革命：从轰鸣到低语，聆听未来的声音图景

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

三菱全新帕杰罗或9月2日发布，外观、动力等细节抢先看！

热门推荐

上半年新能源车注册量近半，现存新能源汽车相关企业近180万家

国产机器人产业加速出海，国内现存相关企业超115万家

国产机器人产业加速出海，国内现存相关企业超115万家

字节跳动Seedance 2.5发布：视频创作升级，支持30秒生成与多素材参考

2026年Q2全球智能手机出货量降6%：三星苹果领涨，小米等厂商承压

植物无大脑却能“对话”“预言”？重新认识地球生命信息网络中的它们

2026年7月手机圈大事件：苹果基带混用红米新机将至小米份额上升 OPPO新机万元起

消息称OPPO或推6.3-6.4英寸阔直屏新机预计与Ultra同档明年亮相

谷歌DeepMind再发力：新一代机器人AI模型攻克全身控制与灵巧操作难题

谷歌Gemini Robotics 2发布：单模型驱动全身自由度，开启机器人通用智能新篇

字节跳动Seedance 2.5发布：30秒生成高质量视频，优化连贯性还去“油腻感”

AI浪潮下企业变革：字节飞书调整，豆包成新增长引擎接棒前行

模型激战正酣，亚马逊云科技另辟蹊径率先收获AI商业硕果

字节跳动Seedance 2.5发布：视频时长延长至30秒，创作能力全面升级

B站运营“社区派”代表林航离职曾为即刻社区风格奠基人