当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI的防守反击：GPT-5.2火速发布，瞄准专业场景

IP属地中国·北京 21世纪经济报道 时间：2025-12-12 20:15:45

21世纪经济报道记者董静怡
12月11日，OpenAI发布GPT-5.2，距离上次版本更新不到一个月。与以往追求颠覆性不同，这次发布的主题明确且务实，官方称这是其“迄今为止功能最强大的专业知识工作模型系列”。
这显然是对近期谷歌Gemini 3强势崛起的回应。
就在上个月，谷歌发布了Gemini 3，凭借其在多模态推理、复杂逻辑任务和实时工具调用等方面的突破性表现，迅速抢占多个权威基准测试榜首，并开始蚕食OpenAI在开发者生态与企业客户中的既有优势。
随后，OpenAI首席执行官山姆·奥特曼向员工发布了一份内部备忘录，宣布公司进入最高紧急状态“红色警报”（Code Red），暂停所有非核心项目，将所有工程和资源集中用于优化其核心产品ChatGPT。一周之后，GPT-5.2火速上线。
GPT-5.2更像是一次战略防守与务实推进。在竞争压力之下，OpenAI必须证明自己的模型不仅更聪明，也更实用。
（资料图）
OpenAI正将重心从炫目的新功能转向提升可用性和可靠性。
在发布中，OpenAI称GPT-5.2是其“迄今为止功能最强大的专业知识工作模型系列”，显然是冲着最近风头正劲的Gemini 3。OpenAI表示，GPT-5.2在创建电子表格、制作演示文稿、编写代码、识别图像、理解长篇上下文、使用工具以及处理复杂的多步骤项目方面都表现更出色。
GPT-5.2分为三个版本：Instant、Thinking和Pro，分别对应不同应用场景和价格层级。Instant版本在写作和信息检索方面速度更快，Thinking版本更擅长结构化工作，例如编码和规划，而Pro版本则能为难题提供最准确的答案。
其中，GPT-5.2 Thinking在OpenAI自研的GDPval基准测试中创下历史最高分，是最适合真实世界专业场景的模型。该测试在44个真实职业场景中对比AI模型与人类专业人士的表现，公司表示，GPT-5.2 Thinking在超过70%的任务中胜过人类专家。
即使是初级投资银行分析师的角色建模电子表格任务，GPT-5.2 Thinking的平均得分也高达68.4%，比上一代GPT 5.1提高了9.3个百分点。
除了超越人类专家外，GPT-5.2的产出速度是人类专家的11倍以上，而成本不到人类的1%。这种效率与成本的巨大优势，使其在企业市场展现出强大的商业化潜力。
可靠性提升是GPT-5.2的另一大亮点，新版本能显著减少“幻觉”（hallucinations）。据公司数据，在针对事实性问答的基准测试中，GPT-5.2 Thinking的幻觉率比GPT-5.1降低了30%。这意味着在金融分析、法律研究、医疗诊断支持等容错率极低的领域，AI的可用性迈出了实质性一步。
在编码能力方面，GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成绩，在SWE-bench Verified上更是达到80%的新高。对于日常专业用途而言，这意味着该模型可以更可靠地调试生产代码、实现功能请求、重构大型代码库，并以更少的人工干预实现交付。
“GPT-5.2在端到端执行复杂的现实世界任务方面比以往任何模型都做得更好。”OpenAI总结道。
GPT-5.2将同时面向ChatGPT用户和使用OpenAI API的开发者开放。在API平台，GPT-5.2定价为每百万输入token 1.75美元、每百万输出token 14美元。OpenAI称，尽管GPT-5.2的单个token成本更高，但由于其更高的token效率，达到特定质量水平的总成本反而更低。
值得注意的是，就在几天前，山姆·奥特曼宣布公司进入“红色警报”状态，推迟广告业务及AI代理等新项目开发，集中资源优化ChatGPT核心技术。他在备忘录中直言：“我们正处于ChatGPT的关键时刻。”
过去两年，AI行业陷入“模型竞赛”，但资本市场对单纯的技术突破已显疲态，投资者关注焦点已从谁的模型更强转向谁的AI能赚钱。
此背景下，竞争对手谷歌的Gemini 3发布引发行业震动，该模型不仅刷新多项性能记录，更展现了AI从“回答问题”到“完成工作”的转变，被认为是谷歌重回AI第一阵营的标志。
Salesforce首席执行官马克·贝尼奥夫近日表示，因Gemini的“惊人”进步，他目前已放弃ChatGPT并转投Gemini 3。“AI教父”辛顿也将赌注压给了谷歌，他表示，“我觉得更让人意外的是，谷歌居然花了这么久才超越OpenAI”。
根据Sensor Tower的数据，ChatGPT的月活在8月到11月之间仅增长约6%，达到约8.1亿，这可能意味着ChatGPT正逐渐接近市场饱和。相比之下，Gemini的全球月活在同期跃升约30%，主要受其新图像生成模型Nano Banana推出后带来的用户激增影响。
这些无疑都在给“老牌王者”OpenAI带来紧迫感。
OpenAI应用业务CEO菲吉·西莫周四向媒体表示：“我们宣布‘红色警报’，是为了向全公司明确传达一个信号：我们要集中资源聚焦于一个关键领域，以此真正厘清优先事项。目前，我们已大幅增加了投入到ChatGPT的整体资源。”
西莫否认OpenAI因“红色警报”而提前了GPT-5.2的发布时间，称公司数月来一直在筹备这一模型的发布。但她也承认，围绕ChatGPT增加的资源“确实起到了帮助作用”。
从GPT-5.2的发布不难看出，其努力提升在专业场景中的可用性和可靠性。在竞争压力下，OpenAI不得不加速商业化进程，将技术优势转化为真金白银的收入。
此次战略调整也暴露了OpenAI面临的财务压力。公司已签署了价值高达1.4万亿美元的巨额算力基础设施合约，若用户增长放缓或市场份额流失，维持这一商业逻辑就会变得有些艰难。
但谷歌的竞争优势不仅仅体现在模型性能上。其拥有从搜索引擎到移动操作系统、从办公套件到云服务平台的完整的生态系统，为Gemini提供了OpenAI难以复制的应用场景。
面对这种局面，OpenAI的选择有限，但也是明确的。在生态劣势的情况下，依靠模型性能的领先维持用户忠诚度；在性能领先受到威胁时，加快迭代速度，优化用户体验和参与度。
GPT-5.2就是这个策略链条中的最新一环，它可能不是最革命性的更新，但必须是最能留住用户的更新。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

禾赛最新激光雷达官宣即将亮相CES 2026

‏“史上最香Mate”！华为Mate 80系列火爆，以极致诚意席卷市场

对话｜岚图汽车卢放：期待中国自主品牌攻克豪华轿车市场

北京人形“金牌导游”机器人上线：会讲解更自主，聪明大小脑加持

问答精准率94.3%，“深小i”成全国首批认证政务智能体

突发 | 刚刚，崩了！微信道歉！

全站最新

禾赛最新激光雷达官宣即将亮相CES 2026

‏“史上最香Mate”！华为Mate 80系列火爆，以极致诚意席卷市场

对话｜岚图汽车卢放：期待中国自主品牌攻克豪华轿车市场

北京人形“金牌导游”机器人上线：会讲解更自主，聪明大小脑加持

热门推荐

中央经济工作会议为银行业指方向，加力支持扩大内需、科技创新、中小微企业等重点领域

中央经济工作会议为银行业指方向，加力支持扩大内需、科技创新、中小微企业等重点领域

禾赛最新激光雷达官宣即将亮相CES 2026

‏“史上最香Mate”！华为Mate 80系列火爆，以极致诚意席卷市场

OpenAI牵手迪士尼，Sora生成视频可使用迪士尼角色

对话｜岚图汽车卢放：期待中国自主品牌攻克豪华轿车市场

北京人形“金牌导游”机器人上线：会讲解更自主，聪明大小脑加持

TCL李东生：AI正从概念走向深度产业化

威马、高合、极越，纷纷开打“复活赛”

问答精准率94.3%，“深小i”成全国首批认证政务智能体

突发 | 刚刚，崩了！微信道歉！

刚刚，微信团队致歉！

港大开源ViMax火了，实现AI自编自导自演

微软大量部署Blackwell GPU，英伟达员工吐槽冷却系统“太浪费”

对话奔图执行董事尹爱国：一个突破技术封锁的国产打印机样本