左手职场.右手AI
有故事.有方法.有工具
2025年8月6日
2025年第167篇,总第933篇原创文章
全文1209字,阅读时间约4分钟
大家好,我是山哥!一个深耕采购供应链领域20多年的老司机,曾在GE、维谛技术、当纳利、药明康德、信达生物等全球知名企业担任高管,曾实操若干采购供应链降本增效项目(累计降本数十亿),深谙企业战略和管理、组织发展和领导力提升。目前all in “AI+行业/领域应用”,人社部AIGC教材副主编,微博认证“AI专家”,沃顿商学院校友,社科院AI经济学博士在读。
凌晨了,还在被时差困扰的我依然没睡。
突然,浏览器弹窗跳出OpenAI的更新公告——标题只有两行字,却足以震撼业界:“推出gpt-oss系列,突破开源权重推理模型的性能边界”。
是的,你没看错。这是自2019年推出GPT-2后,OpenAI首次开放超大规模模型的完整权重。这两款模型不仅性能对标其闭源旗舰产品,比如,120b版本对标o4-mini,20b版本对标o3-mini,更以极低的运行成本和高度灵活的开源协议,为开发者、企业和普通用户打开了一扇通往AI创新的大门。
看来,OpenAI是把“压箱底”的大语言模型搬了出来,还一口气给了两份。大的叫gpt-oss-120b,小的叫gpt-oss-20b,允许任何人下载、改代码、做商业用途,不收授权费,只要求在Apache 2.0许可证底下留一行版权说明。
这可不是小打小闹的“试用版”,正如OpenAI在官网上说的:120b版本的推理成绩几乎追平内部最新一代o4-mini,却只要一张80 GB显存的显卡就能跑完;20b版本的成绩和o3-mini旗鼓相当,而内存需求低到16 GB,笔记本也能带得动。换句话说,过去只有大厂才烧得起的“大模型”,现在普通人就能搬回家。“一张消费级显卡,就能跑动对标GPT-4级别的大模型”,这在以前是想都不敢想的!
简单看一下两款开源产品的性能评估情况:
在编程(Codeforces)、通用问题求解(MMLU/HLE)、工具调用(TauBench)等测试中,gpt-oss-120b超越o3-mini,持平或优于o4-mini,
在健康(HealthBench)和竞赛数学(AIME)中,gpt-oss-120b表现更佳。
gpt-oss-20b性能匹配o3-mini,部分领域(如数学、健康)实现反超。
故事还得从架构说起。两个模型都用了“混合专家”思路:像请一堆专科医生,每次只叫其中几位出诊,既省人力又保证质量。120b总参数量1170亿,但每走一步只激活51亿;20b总参数210亿,实际只动用36亿。省下来的算力直接变成电费和水冷账单上的零头。
为了让模型“接地气”,训练数据特意往STEM、代码和日常知识倾斜,英文为主,却涵盖足够多的数学、医学、程序片段,保证写得了代码,也答得了“孩子发烧怎么办”。配套 tokenizer 一口气扩到20万级词表,连emoji都没落下。
后训练阶段,OpenAI照搬了自家旗舰产品的“配方”:先监督微调,再高强度强化学习。模型学会在看到复杂问题时先写一段“内心戏”——链式思考,再给出最终答案。
用户可以在系统提示里轻描淡写地写一句“请用高推理强度”或“越快越好”,模型便自动调整“思考时间”。
安全是绕不开的话题。预训练阶段,所有涉及生化、核武、极端暴力场景的数据被提前剔除;后训练阶段又加入“指令层级”机制,让模型先判断请求是否越界,再决定是否回答。OpenAI甚至“自黑”了一把:把120b版本故意拿去“黑化”微调,模拟坏人拿到权重后会怎样。结论让人松一口气——就算用公司最强训练栈“喂毒”,模型也达不到高风险门槛。三家外部安全机构复核了这套流程,报告一并公开。
当然,开源不等于免费午餐。模型不会自己学会回答“今天中午吃什么”,也不会自动遵守当地法律。开发者需要微调、需要过滤、需要监控。OpenAI把最重的训练成本扛了,把最灵活的二次开发空间留给世界。
最后,据奥特曼透露,“今天发布的开源产品还不足为奇,后面几天会有很多新东西,然后是一个产品大升级”。
估计是GPT 5要来了!拭目以待!
图片OpenAI官网、Reddit