当前位置：首页 » 资讯 » 新科技 » 正文

M2.5登顶OpenRouter:如何做出大家最需要的那个模型

IP属地中国·北京 硅星人 时间：2026-02-23 10:18:39

作者｜王兆洋
邮箱｜ wangzhaoyang@pingwest.com
先看一组数据：
评估模型编程能力的主流榜单SWE-bench Verified上，Claude Opus 4.6 得分80.8%，Gemini 3.1 Pro 80.6%，MiniMax 2.5 80.2%，GLM-5 77.8%，Kimi K2.5 76.8%。
最大分差也不超过4分，差距就这么点大。开发者今天其实已经很难只靠这些“考试分数”来选择要用的模型。
但最近还有另一组很有意思的数据，来自最重要的模型调用平台之一OpenRouter：

官方统计显示，最近其平台上的token调用激增，且其中很多需求来自100K-1M长文本任务，也就是agent工作流最典型消耗区间。刺激这些需求爆发的一个重要因素是一个新模型的发布——MiniMax M2.5。单是在OpenRouter上，它发布后七天的调用量就到了破纪录的 3.07T tokens。
这说明什么？
今天公开的benchmark也就是打榜式的评测已经没那么重要了，因为差别不再明显。但与此同时，真实使用者的感受越来越关键，做好了，你就可以成为最受欢迎的那一个，因为用户们对模型的需求远远未被满足。
所以，关键的问题变成，如何做出大家最需要的那个模型。
可以先来看看这个备受欢迎的MiniMax M2.5是一个什么样的模型。
1.模型部署上：10B激活参数，实战中总结的甜点位
MiniMax M2.5，一个总参数 230B，激活参数只有10b的模型。它不会叫自己端侧模型，但已经是私有化部署最友好的模型。这是一个实战中总结出来的性价比甜点位，也是头部模型里这种友好度里的唯一选择。
2.价格：没有波动，这是开发者最在意的负担
人们想尽可能多消耗token，但对价格变化又有负担，M2.5通过各种工程和算法更新，在性能提升同时，把价格维持住了，这其实说明MiniMax自己也清楚知道真实的开发者的最大负担是什么。
3.模型的核心能力：死磕Coding和Agent，让开发者真的认真考虑用它替代Claude
此次M2.5在编程上性能提升的来源，不再是“不论过程只管对标结果”的方式，而是把开发过程里的代码工程甚至开发思维训练到模型里。M2.5的spec能力就是一个典型的代表。
官方报告这样形容：M2.5 具备了像架构师一样思考和构建的能力，比如模型演化出了原生 Spec 行为：在动手写代码前，以架构师视角主动拆解功能、结构和 UI 设计，实现完整的前期规划。
M系列阶段性目标明确，此时此刻，它就是要死磕Coding 和 Agent。它在SWE-Bench Verified 已经做到80.2%的水平，同时约1 元/小时的成本给你100 tokens/秒的吞吐，还要什么自行车。
这当然是个带有赌注成分的决定，并且需要做出trade off，但目前看起来效果不错收益明显。大量Claude Code用户在选择模型时真的逃不开要考虑M系列模型，这就很能说明问题。
4.推理：推理效率的极致优化，每一环都是在解决业务压力
M2.5在工程化上持续补全：平衡吞吐和稳定的Windowed FIFO，把大量重复前缀合并处理、解放出40倍效率的树状结构……推理的每个环节都在继续优化。
5.以及可能是最重要的，又一个技术创新：RL框架Forge
MiniMax在技术上一直挺有追求，不少新的思路是它第一批尝试然后反馈给行业里，比如此前的交错思维链式推理等。而这一次它重点介绍了用在M2.5训练里的一个新的 RL 框架 Forge 。
这是一个工业级的Agent RL 训练方案，也就是它的目标非常务实，就是面向真实复杂的场景大规模训练AI Agent。
上个阶段把Agent训入模型的方式其实依然粗糙，它们有点“混为一谈”的感觉，而Forge这次核心探索了对Agent部分和模型本身基础能力做解耦的方法。
先把Agent和它需要的环境抽象出来，与模型本身区分开，然后在两者间增加一个中间层，既扮演物理隔离的作用，也提供智能调度和实施策略调整的角色。这很巧妙。

更有意思的是，这样解耦后，还解锁了一个新的scale的方向，就是把各种Agent框架放进去做训练，最终获得泛化能力。这是个非常有用，甚至直接能影响开发者体验的泛化，它让M2.5可以适配各种见过没见过的“脚手架”。
这同样是真实agent场景里非常需要的能力。
看过M 2.5的这些训练重点，你会发现，它的这些优化都不是为了刷榜，而是为了解决非常具体的问题——在Agent的需求快速取代了所谓对话场景的需求后，模型该提供什么样的智能。
它需要在效果和价格上找到微妙平衡，持续提升性能的同时降低成本。
这说来简单，但对这个度的把握很难。模型厂要对这些开发者的需求有最直接的感知。而MiniMax的“手感”其实正来自这家公司自己内部。
M2.5背后，MiniMax 的M系列模型最重要的研发思路就是要解决它内部各个团队在开发agent的过程里遇到的问题。
闫俊杰曾在M1发布后分享过：“公司内部的小伙伴一直在搭建各种各样的Agent，来帮助解决公司飞速发展中遇到的各项挑战……但是我们发现没有一款模型在这些Agent上能完全满足我们的需求。这里面的挑战在于好的模型需要在效果、价格和推理速度上取得好的平衡，这几乎是一个‘不可能三角’……我们一直在探索，能不能有一款模型能在效果、价格和速度上能取得比较好的平衡，从而让更多的人能受益于Agent时代的智能提升。”
所以，MiniMax M2发布时，它做到当时Claude主力模型价格的8%，而最新的MiniMax M2.5价格是Claude主力模型的1/12。甚至，M2.5直接被形容为“1万美元可以让4个Agent连续工作一年”的模型，这几乎意味着你可以不需要考虑使用成本地近乎无限使用它。
同时，从死磕编程能力、开发Forge框架再到各种推理优化，它继续榨出更好的模型效果和更快推理速度。

而其中像Forge框架这种创新，就是整个M2.5背后思路的典型代表：只有那些自己在日常工作环境里对各种agent脚手架之间的适配感到过绝望，对真实环境里模型与agent能力之间的关系真正“抓狂”过的模型团队才会去解决这些问题。
M2.5显然是MiniMax自己在面对“不可能三角”时最需要的那类模型。现在，它也成了开发者们最需要的那类模型。
所以作为模型公司本身，当你一直在牌桌上，你自己其实就是最能检验模型实际能力和体验的第一道关。
当一家模型公司自己对生产力AI的需求达到最先进程度，它自己面对的体验困局也就会是人们最重要和普遍的需求，它的创新方向就会是大家期待的模型的进步方向。
它自己喜欢的那个模型，就会是大家最喜欢的模型。

点个“爱心”，再走吧

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用