自8月8号GPT-5正式发布以来,这款产品的口碑似乎一直不怎么样,吐槽此起彼伏。
GPT-5在发布前打出的旗号,是一款具有博士水平智能的AI产品。
官方似乎非常自信,直接下架了以前的旧模型,表示GPT-5可以“吊打一切”。
不过仅仅几天,就因为使用体验遭到反噬,被迫紧急恢复旧版模型使用。
事实上,从测试和跑分的角度来看,GPT-5的技术优势确实非常明显。
不仅如此,官方也在评估中特意强调了GPT-5在数学、真实世界编码、多模态理解和健康方面的过人之处。
不少评测人员表示,现在的GPT-5是完完全全的“理科生”。
在科学和技术领域,它的表现相当出色。解数学难题、编写复杂代码是它的拿手好戏。
而GPT-5的智商上限虽然有所提高,却表现出了极高的“不稳定性”。
有的时候,它也会在简单的问题上犯错。
此外,它在面对原先擅长的写邮件、阅读理解等涉及人类情感的任务时,就像一个机器人。
创意能力也并未发现明显提升,因此GPT-5的实用性饱受质疑。
不过,大家最难以接受的原因,是它的“情商”跌破了用户的下限。
它不再是以前那个什么都能聊的网友,而是变成了一个专业的工作学习助手。
智商上升,情商下降,GPT-5反而变得更不好用了。
因此,在发布后的72小时内,OpenAI就收到了大量的退订诉求。
01
被忽视的提示词指南
其实,在GPT-5发布的前一天,OpenAI发布了一篇GPT-5的提示词指南。
这份指南中给出了一些用户平时可能不会注意的使用技巧,并通过解释部分运行机制回应了外界的质疑。
更重要的是,它解释了一个重要的事实:
并非GPT-5变得不好用了,而是用户与AI的交互方式还停留在上一个时代。
还记得我们先前谈过的提示词工程的重要性吗?
很多人总是习惯于把GPT-5这类AI产品当作一个搜索引擎或者“工具人”来使用,但GPT-5已经进化成了一个拥有自主规划和深度思考能力的“数字心智”。
因此,老旧的沟通方式自然是无法生效,是时候进行“强制更新”了。
首先,先来看下GPT-5的变化。
根据指南中的内容,它的核心进化分为四个方面:
1.智能体任务性能(Agentic Task Performance):
它不再是那个“问一句答一句”的人机客服了。
现在的GPT-5,更像是一个项目经理。
它能够理解较为复杂的目标,自主规划完成的步骤,选择合适的工具,并持续工作直至任务完成。
2.编码能力(Coding)
前段时间,我们发布了一篇测评国内AI大模型写代码的能力的文章。
如果把以前的AI比作程序员,那GPT-5可以称的上是一名全栈工程师。
它能够处理大型代码库的重构、修复较为复杂的Bug,甚至能够从零起步构建一个功能完备的应用。
3.原始智能(Raw Intelligence)
相比旧版本模型,GPT-5拥有更强的逻辑推理能力、常识理解能力和创造力。
当然,考虑到GPT-5先前差评如潮的情况,这一方面还要打个问号。
4.可引导性(Steerability)
这才是我们要关注的核心。
GPT-5对指令的细微差别非常敏感。
因此,用户可以像使用科研仪器一样,精确控制它的行为、语气和输出风格。
除此之外,官方还推荐了一个新工具,名为Responses API。
今年5月21日,OpenAI宣布扩展Responses API,支持远程连接MCP服务器、图像生成等功能,用于帮助开发者构建更智能的智能体应用。
这个工具的应用,好比给GPT-5额外加装了一个“短期记忆芯片”。
过去与AI交互,经常需要复述上下文背景,从而浪费大量tokens,徒增成本。
而现在,只需要传递一个“previous_response_id”,就可以让AI记住上一步的思考过程和推理链。
官方数据显示,GPT-5在Tau-Bench测试(零售场景)中的分数由73.9%提升至78.2%。
简单来说,就是性能更好、延迟更低、成本更省。
对于所有需要多个步骤完成的复杂任务,Responses API恐怕将成为必选项。
02
驯服AI智能体
GPT-5自Chatbot进化为智能体后,其双刃剑效应变得更加明显。
用好了,它能实现博士级别的智能;用不好,它就又变回了“人工智障”。
OpenAI把这种双刃剑效应定义为智能体急切性(Agentic Eagerness)。
因此,用户在使用GPT-5时面临的最大难题,是如何成为一个优秀的“驯兽师”。
指南中给出了下面几个应用场景:
1.追求效率与简洁:即如何“拉住缰绳”
适用场景:任务明确、需要快速得出答案、不需要AI节外生枝。
在使用各类AI产品的时候,各位肯定都经历过,明明只是想让AI给出一个简单、易于理解的答案,但AI却要思考半天,然后列出一大段让人压根不想看也没必要看的内容。
OpenAI给出了两种解决方法:
一是降低推理强度(reasoning_effort)。
这是一个API的参数,用户可以把它设置成low或medium。
这就像告诉一名员工:“别想太多,照着流程走,快速给我结果。”
二是在提示词中设立“红绿灯”。
首先,要明确目标与方法,告诉AI“快”才是第一要务;
其次,设定提前停止标准,如“只要找到XX,就立刻停止搜索”,打断它复杂的思考过程;
再次,设置工具调用预算,规定AI“最多只能调用两次联网搜索”;
最后,提供“逃生舱口”,加入一句“即使答案可能不完全正确”,避免AI为了追求100%正确而进行过度思考和探索。
看完这部分内容,感觉OpenAI又把我的AI世界观给“强制刷新”了一遍。
以前我在用AI的时候,最多是在提示词结尾加一句“只需要告诉我XX即可,不要添加额外内容”。
但抛开修改API参数不谈,我确实没想到还可以通过限制搜索次数,甚至是不要求答案完全正确的方式来加快AI的运行。
2.鼓励自主与探索:即如何“放手一搏”
适用场景:任务复杂、目标模糊、需要AI进行深入研究和自主决策
另一种经常在使用AI时遇到的情况是,在我们只有一个初期目标或者大方向时,需要AI给出一套完善的思路、框架时,AI只能给出一个“半成品”。
与前面对应,OpenAI同样提供了两种方法:
一是提高推理强度(reasoning_effort)。
也就是把API的参数设为high,告诉员工“给你充分授权,动用一切资源,把问题研究透彻”。
二是在提示词中注入“信念感”。
指南中的这一段内容直接翻译过来有点抽象,但核心思路很简单:
明确告诉AI遇到困难时要怎么办,而不是停下来求助用户。
3.善用工具前导提示:让AI“汇报工作”
在完成工程量较大的复杂任务时,为了避免AI成为一个闷头干活的“黑箱”,可以要求AI定期进行汇报。
操作很简单,在提示词中加入对汇报风格和频率的要求即可。
然后,用户就可以看到一份类似表格、结构清晰的报告(即JSON格式),包含AI的思考摘要、当前执行的任务和下一步的计划。
在复杂的智能体中,这种类似于print函数的监控和调控过程是非常重要的。
03
从规划到执行的全流程优化
除去系统性的说明,这份指南中还给出了一些来自一线客户的“宝贵经验”。
我们仍然用一些应用场景来说明:
1.让AI成为“架构师”
适用场景:从零开始构建新应用
目前,AI产品正在实现“低门槛”的目标。
各行各业的用户都在频繁地使用AI,但大部分用户都不可能同时具备多个领域的专业知识。
因此,只有产品经理而没有程序员的情况已经很常见。
指南中给出的方法是使用“自我反思(self-reflection)”提示法。
我们要做的,不是上来就让AI写代码,而是先去引导它进行思考。
事实上,这是符合工程思维的做法,本质上是让AI先进行需求分析和架构设计。
用户则需要确定AI生成的方案是否与其预想类似,并以此进行微调或修改。
先输出一份高质量的设计文档再严格执行,虽然看起来步骤有些繁琐,但根据实际使用经验来看,最终输出的代码的质量和结构性都有明显的提升。
2.发给AI一本“程序员培训手册”
适用场景:在现有项目中添加功能或进行重构
这个功能同样应用地相当频繁。
现实工作中,不仅是程序员的代码,很多项目都需要进行反复修改和完善。
必要时,也可能需要“删掉重写”。
但是,工作交接是有风险的,新程序员和老程序员的写代码风格可能不一样,新员工和老员工的工作方式也有所差别。
因此,给AI提供一套具体而细致的规则,才能让AI生成的内容无缝融入项目,避免风格冲突和低级错误的出现。
不过,从图中也能看出来,这项技巧是有一定技术门槛的。
想要写出这种提示词,可能需要经验丰富的“老员工”提供一些技术指导。
3.额外的一些实战经验
一些用户在使用GPT-5后发现,有时候它在对话中就是个话痨,有时候生成的内容又过于简洁。
看起来很矛盾,是不是?
解决方案倒也出人意料的简单,把全局API参数verbosity设为low,让它少说话。
再在提示词里写清楚:“请给出详细、可读性强的注释”,让它不许省略关键信息。
另一个需要注意的变化是,对GPT-4很有效的强制性提示,比如“请务必彻底、全面地分析上下文”,对GPT-5可能适得其反。
GPT-5天生喜欢思考和探索,而过度的强调可能让它在简单的任务上来一出“大炮打蚊子”。
为了避免这种浪费时间、浪费资源的行为,提示词就得更柔和、更具引导性一些。
04
通用的控制技巧
下面的技巧适用于所有类型的任务。
1.全新的控制器:verbosity和reasoning_effort
这两个词其实前面我们已经提到过了,它们很重要,不过看起来似乎有些容易混淆:
推理强度(reasoning_effort):决定AI思考的有多深、多努力。
详细度(verbosity):决定AI最终回答的有多长、多仔细。
2.GPT-5的“阿喀琉斯之踵”:指令冲突
相比以前的旧模型,GPT-5有了一个新的特点:较真儿。
作为一个严谨而可靠的AI助手,它会严格遵循用户输入的每一条指令。
这就带来了一个问题:结构不良的提示词(poorly-constructed prompts)对它造成的伤害容易“触发暴击”。
对于一般的用户来说,在编写完提示词后肯定不会再去专门检查一遍表述是否有问题。
但若是提示词中无意间包含了相互矛盾或者模棱两可的指令时可就出问题了。
GPT-5不会像旧模型一样随机选一个执行,而是会尝试去调和这些矛盾。
在这个过程中,伴随着大量资源(时间和tokens)的消耗。
而最终的结果,很有可能就是性能下降、逻辑混乱甚至任务失败。
OpenAI给出的示例是医疗助手的场景:
指令A:未经患者明确同意,绝不安排预约。
指令B:对于高危病例,自动分配最早的当日时段以降低风险。
在我们看来,可能指令B更具备优先性;但在GPT-5看来,这就是个僵持不下的死局。
而对于这个问题,OpenAI给出的解决方案有三条:
一是审查提示词,检查是否存在逻辑冲突;
二是建立指令层级,明确指出在特定情况下不同规则的优先级;
三是使用官方工具,指南中提及的prompt optimizer tool可用于帮助自动识别这类问题。
前两条解决方案,都需要用户亲自动手,与“自动化”需求背道而驰。
第三条解决方案,如果用户不看这份指南,又没有来自外部的指点,根本不可能知道。
05
锦上添花的高阶玩法
最后,指南中还分享了一些“独门秘籍”。
1.极速模式:最小化推理
这是专门为了低延迟场景而设计的一种模式。
在保留推理能力的基础之上,尽可能加快了模型的运行速度。
但这么做的代价,是模型自身的规划能力的降低。
因此,这一模式非常看重提示词的质量,用户最开始就得主动要求GPT-5对任务进行规划。
此外,用户的指令必须足够清晰,不能有矛盾或模棱两可之处。
而用户还需要强化“持久性提醒”,反复告知AI“要完成整个任务”或其他细节性要求。
2.元提示(metaprompting)
这又是我们平时不太容易想到的一种与GPT-5交互的方式:
让GPT-5教用户如何向它提问。
当我们发送提示词给GPT-5但没得到满意的结果时,不必自己费劲修改,直接再丢给GPT-5:
以子之矛,攻子之盾。
当然,提示词这部分的优化,也可以用我们先前介绍过的promptPilot或是其他大模型完成。
06
写在最后
看完OpenAI这份被大多数人忽视的官方指南,我多少理解了一些GPT-5的差评。
相比于前代模型,GPT-5的改动有些过大了,让大部分AI使用者一时间难以适应。
如果不细看OpenAI给出的这份“官方剧透”,很多资深AI玩家恐怕都束手无策。
在这场风波中,我意识到,像我这样的普通人对于AI的了解程度,可能和人类对于宇宙的了解程度,差别并不大:
我们的直觉是错的。
我们习惯性地认为,对AI下达强势而全面的指令会获得更好的效果,但却让天生“想太多”的GPT-5走上低效和混乱的道路。
我们看不见的“开关”太多了。
平时只是点开网页版GPT-5的我们,谁能想到还有专门的按钮(reasoning_effort和verbosity)来控制AI思考的“深度”和回答的“长度”?
我们最大的敌人,是自己的“想当然”。
我们自以为只要给AI发出清晰的指令就足以让它完成任务,但却从未意识到自己可能不经意间给AI布置了很多逻辑陷阱。
这份指南在一定程度上揭示了与高级人工智能协作的底层逻辑。
随着GPT-5的诞生,各大厂商早晚也会推出智能化程度更高的新模型。
当我们面对这样一个能力远超以往的“新物种”时,最大的障碍,并不是AI的智能上限,而是我们自身认知和交互习惯的局限。
因此,“人与工具”的思维定式或许已经到了需要转变为“人与心智”的协作范式的时刻。
而GPT-5的这次差评风波,只会是未来无数次认知冲击的第一次预演。