当前位置：首页 » 资讯 » 新科技 » 正文

GPT-5 来了，还免费，牛马真有救了

IP属地中国·北京 编辑：赵云飞果壳 时间：2025-08-08 10:25:49

这是 OpenAI 模型发布时间线。今天凌晨，我们终于等到了 GPT-5，这款从去年就被反复“预告”，不断“剧透”的模型。

发布会用“普通人能看懂的方式，展示了最强 AI 的能力”，从写发布会文案，到现场生成网站、做游戏、学语言，再到 AI 协助问诊和“传统艺能”比拼 benchmark。
如果说 GPT-3 是“能自主说话”的语言模型，GPT-4 是“听懂人话”的多模态大脑，GPT-5 更像是一个全能的个人助手。
用 Sam Altman 一句话总结：“GPT-5 将让你第一次真正感觉到，仿佛与任何领域的博士级专家交谈的感觉。”
那么，这个被冠以“地表最强”title 的大模型，表现如何？
程序员又又又危险了
编程，是 GPT-5 发布会的一大亮点，也是最能直观感受到 GPT-5 进化之处。
OpenAI 团队在现场写出了好几个网页，比如“给伴侣做一个能让英语使用者学法语的网页，功能要有进度跟随、单词卡、单词小游戏等”。
300 词左右的 prompt，3 分钟不到，GPT-5 就拿出了一个极其完整的可用网页，并“擅自”命名为《午夜巴黎》（还致敬了伍迪·艾伦的电影），网页即创即用，单词卡、进度跟踪、快捷键、记忆曲线、开发者要求的贪吃蛇小游戏，这些功能全部满足且运行正常。

关键是网页设计的还很有美学，网页间距、排版、配色、视觉感都被考虑进去，甚至做出了黑暗/白天的双主题。
OpenAI 又让 GPT-5 写了一个“动态 SVG 可视化可以模拟翼型的行为”，几分钟内，GPT-5 搓出了几百行代码后，交付出一个完全符合需求，美观且可交互的网页，并且所有的参数变化都会根据物理规律实时调整，整个网页达到了教学演示级别的专业水准。
根据 OpenAI 自己的内部测试，70% 的情况下，GPT-5 在前端网络开发方面击败了今年 4 月才上线，号称“OpenAI 最强大的推理模型”的 OpenAI o3。
而后 GPT-5 又展示了它作为编程 Agent 的强大，同样在几分钟内，就做出了一个带有 3D 场景、可控角色与多重视角的网页游戏，从物理引擎调用到角色对话系统构建，全程几乎无需人类干预。

几大 AI 编程软件也给了 GPT-5 编程能力极大好评，Cursor 创始人称 GPT‑5 是“我们用过最聪明的模型”，代码调试能力尤为突出；Windsurf 优评其工具调用错误率甩前代几条街；Vercel 则说它不仅写对，还“写得像专业网页设计师”。
和 Cursor IDE 集成后，GPT-5 还能在几分钟内理解上百万行代码，可以自己“debug”输出结果并回溯方案，不再陷入“提示死循环”。在 SWE-bench 这个真实软件工程任务测试里，GPT-5 不仅能理解 bug 报告，还能精准修改代码，准确率最高接近 75%，远超 GPT-4 的 30%。
所以“编程”是整场发布会里，GPT-5 最具说服力的展示场景之一。
GPT-5 不再只是“能写代码”，而是具备了程序员的开发路径：理解需求、设计结构、撰写代码、优化交互、美化界面，甚至还会在需求之外“适度创作”。
又当程序员，又做设计师，还会搞交互，各类编程语言也都拿手，GPT-5 已经接近一名合格的全栈工程师了。
写作、沟通、打工、就诊
写作堪称 GPT 的“基本功”，在 GPT-5 上，写作变得更有人味儿、也更专业。
比如一位用喜剧传递科普内容的博主，她用 GPT-5 写剧本、写段子、测试角色逻辑和情绪动机、出分镜，甚至用语音和 GPT-5“对戏”。

在发布会上的写作演示中，同样的 prompt 下，GPT-5 也明显比 GPT-4o 生成的文案更有“人味儿”，用词精炼且有节奏感。
在正经的科研场景中，GPT-5 表现得也如 Sam Altman 所言像一位“跨学科博士后”。免疫学教授用 GPT-5 解读实验数据，模型不仅能解释结果，还会预测未来实验趋势，并主动提出下一步实验方案，大大压缩了科研迭代周期。在专业能力上，据 OpenAI 披露的数据，GPT-5 在大约一半的案例中和行业专家水平相当或更好。
对于每天在工位上与琐碎信息搏斗的打工人来说，GPT-5 这次真能做你的助手，OpenAI 都自封为“打工人最好用的模型（Our best model for work）”。
你只需要把领导给你的资料往 GPT-5 那一拖，它就能做出了 Excel 表格，再根据表格做出数据可视化的看板，还给你写好资料要点和总结。
同时，GPT-5 还能帮你理清一整套方案，给出落地页结构和转化建议，精准而不敷衍。夸张点儿说，老板开口说“我有个想法”，几分钟后，GPT-5 项目企划书已经做好了。

OpenAI 还展示了这样一个真实且感人的案例：一位名为 Carolina 的用户在短短一周内被诊断出三种不同形式的癌症，但她一直在排队等候报告解读，于是她将医院报告截图上传给 GPT‑5，模型迅速将复杂的医学术语转化为易于理解的语言。
在后续治疗过程中，GPT‑5 不仅持续帮助她解读术语，还协助她评估治疗选项、准备就诊问题，甚至在是否接受放射治疗的决策上给予 Carolina 情感支持。
尽管 Sam Altman 也强调了，OpenAI 并不把 GPT‑5 定位为医疗设备，它也不能替代专业医疗角色，但他们想做的是让 AI 成为“健康素养支持工具”（health literacy support tool）能让患者在慌乱和未知里，不再完全仰赖医生，而是成为有准备、有信息支持、能了解身体情况的患者。

GPT-5 的语音模式也有了明显提升，增加了冷嘲型、理性型、倾听型、学霸型四种不同的语音预设，除了语气更自然外，情感感知能力也有提升，用户还可以自选语音风格和语速。在发布会的演示中，OpenAI 还特意展示了 GPT-5 的语音可以作为“学外语的口语利器”。
根据此前 GPT-4o“过度奉承”的问题，GPT‑5 在回答用户时会更克制、理性，较少出现过度附和，也不会再乱用 emoji 了。
从刷榜到实战
这次 GPT-5 没有再堆长篇 benchmark 榜单，而是挑了一些更贴近实战的场景：写代码、跟指令、多轮任务推理，尤其在“推理模式”下，GPT-5 相较旧模型“幻觉”更少，回答更谨慎。
据 OpenAI 的安全研究负责人 Alex Beutel 表示“GPT-5 的欺骗率大大降低。”比 GPT-4o 模型的幻觉率低 45%，与 o3 相比，降低了 80%。
而在 AIME 2025 数学竞赛数据集上，GPT-5 在启用“thinking”模式后达到了近乎满分的表现（100%）。这意味着它不再只是靠模板和记忆去“做题”，而是真的能按步骤推理、演算，再下判断。在多语言代码编辑任务 Aider Polyglot 中，GPT-5 也达到了 88% 的准确率。

还有一大进步在 prompt 执行能力上，无论是写作、复杂多轮指令，还是内部 API 使用任务，GPT-5 的表现都比前代高出 10 到 30 个百分点。这意味着它能更稳地执行任务、延续上下文。
而且 GPT-5 引入了一个名为“Safe Completions”的机制，面对敏感问题，不再像旧模型一样拒绝回答或者打哈哈，而是会尝试引导用户，帮助你权衡利弊，解释限制，并在边界内给出可操作的建议，让用户在复杂议题中做出更清晰理性的判断。
具体到模型使用上，GPT-5 同样也做了型号分类：GPT-5、GPT-5 Pro、GPT-5-mini 和 GPT-5-nano，主打一个“按需选择、分级定价”：
GPT-5 Pro：是目前 GPT-5 系列中表现最强的版本，在 GPQA 等高难度科学评测中表现出色，人类专家也更赞同它的回答，准确率更高，尤其在健康、数学、科学和编程领域。下周起，Pro 用户还可以将 ChatGPT 接入 Gmail、Google 日历和联系人。
GPT-5 mini：轻量但强大，适合高频、低推理任务。
GPT-5 nano：极致压缩版，成本低，可与 Gemini Flash-Lite 对标，仅通过 API 提供。
免费用户默认使用 GPT-5 和 GPT-5 mini（访问频率有限）；Plus 用户拥有更高额度；Pro 用户（月费 200 美元）可解锁 GPT-5 Pro 和 Thinking 模式。
用户也不需要自己选模型，系统会根据任务复杂度自动调用合适的版本。简单提问就用 mini 或 nano，复杂对话自动上 Pro。
综合来看，GPT-5 并不是一次技术节点的大跨越，更像是一次面面俱到的全面升级。

在这场刚结束的 GPT-5 发布会里，OpenAI 没有把重点放在 GPT-5 参数有多大、跑分有多高、竞技场成绩如何，也很少强调 Agent 与多模态，PPT 也没几张，OpenAI 选择用更多的篇幅去呈现用户如何使用 GPT-5。
不论是专业人士、有创意但没技术的创作者，还是面临困境的患者、渴望成长的求知者……我们看到 GPT-5 被嵌入到了一个个具体而真实的场景中，实现了“能用，快用，好用”。
这种克制与务实，或许才是 OpenAI 最大的野心：让 AI 大模型成为数字世界的基础设施，就像我们曾经使用 Office 365、Google 和百度等那些产品。
作者：糕级冻雾
编辑：沈知涵
配图全部来自 OpenAI

Guokr

8月12日晚19点，果壳x独特艾琳香氛洗护专场来啦！
夏日香氛专场福利拉满！香氛沐浴露、美白防晒素颜霜、香体露、洗发水、护手霜等全场低至9.9元！还有满赠、秒杀、福袋发不停！
一定一定要预约！！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

天津华为云服务培训领域标杆：河北世纪福云通信技术实力解析

今日网易——丽江5G应用：新技术体验点

用AI自动写稿发稿？别再被ChatGPT骗了！优采云才是真神器

Why not？ AI拐点时刻，亚马逊云科技的“野心”和“务实”

大利好！周末，彻底沸腾了！

网信办起草新规：互联网应用程序不得在用户停止使用相关功能或者无关场景调用相机、麦克风权限

全站最新

天津华为云服务培训领域标杆：河北世纪福云通信技术实力解析

今日网易——丽江5G应用：新技术体验点

用AI自动写稿发稿？别再被ChatGPT骗了！优采云才是真神器

Why not？ AI拐点时刻，亚马逊云科技的“野心”和“务实”

热门推荐

天津华为云服务培训领域标杆：河北世纪福云通信技术实力解析

今日网易——丽江5G应用：新技术体验点

用AI自动写稿发稿？别再被ChatGPT骗了！优采云才是真神器

Why not？ AI拐点时刻，亚马逊云科技的“野心”和“务实”

大利好！周末，彻底沸腾了！

网信办起草新规：互联网应用程序不得在用户停止使用相关功能或者无关场景调用相机、麦克风权限

雷军：特斯拉并非不可战胜！SU7是迄今为止唯一击败Model3的同档纯电轿车

出门问问又发AI智能体硬件了，支持同声传译，还给团队协作送助攻

在拉斯维加斯，我看到概念已死

“新国补”助力车市开年升温，现存新能源汽车相关企业近172万家

狗头萝莉被虎牙申请限消

浙江零跑汽车销售服务公司增资至8.5亿增幅325%

天津华为云服务培训领域标杆：河北世纪福云通信技术实力解析

社群获客不再难：微信标签+智能群发，精准触达率提升60%

周鸿祎预言2026年将迈入“百亿智能体时代” AI竞争焦点从参数转向落地