当前位置: 首页 » 资讯 » 新科技 » 正文

MiniMax发布M2.5模型:1美元运行1小时,价格仅为GPT-5的1/20,性能比肩Claude Opus

IP属地 中国·北京 华尔街见闻官方 时间:2026-02-13 10:47:45

MiniMax推出了其最新迭代的M2.5系列模型,在保持行业领先性能的同时,大幅降低了推理成本,试图解决复杂Agent应用在经济上不可行的痛点,并宣称其在编程、工具调用及办公场景中已达到或刷新了行业SOTA(当前最佳)水平。

2月13日,MiniMax公布的数据显示,M2.5展现了显著的价格优势。在每秒输出50个token的版本下,其价格仅为Claude Opus、Gemini 3 Pro以及GPT-5等主流模型的1/10至1/20。

在每秒输出100个token的高速运行环境下,M2.5连续工作一小时的成本仅需1美元,若降至50 token/秒,成本进一步下探至0.3美元。这意味着1万美元的预算足以支撑4个Agent连续工作一年,极大地降低了构建和运营大规模Agent集群的门槛。

在性能维度,M2.5在核心编程测试中表现强劲,并在多语言任务Multi-SWE-Bench上取得第一,整体水平比肩Claude Opus系列。同时,模型优化了对复杂任务的拆解能力,在SWE-Bench Verified测试中,完成任务的速度较上一代M2.1提升了37%,端到端运行时间缩短至22.8分钟,与Claude Opus 4.6持平

目前,MiniMax内部业务已率先验证了该模型的能力。数据显示,其内部30%的整体任务已由M2.5自主完成,覆盖研发、产品、销售等核心职能。特别是在编程场景中,M2.5生成的代码已占据新提交代码的80%,显示出该模型在真实生产环境中的高渗透率和可用性。

击穿成本底线:无限运行Agent的经济可行性

M2.5的设计初衷是消除运行复杂Agent的成本约束。MiniMax通过优化推理速度和token效率实现了这一目标。模型提供100 TPS(每秒传输事务处理量)的推理速度,约为当前主流模型的两倍。

除了单纯的算力成本降低,M2.5通过更高效的任务拆解和决策逻辑,减少了完成任务所需的token总量。

在SWE-Bench Verified评测中,M2.5平均每个任务消耗3.52M token,低于M2.1的3.72M。

速度与效率的双重提升,使得企业在经济上几乎可以无限制地构建和运营Agent,将竞争焦点从成本转移至模型能力的迭代速度上。

编程能力进阶:像架构师一样思考与构建

在编程领域,M2.5不仅关注代码生成,更强调系统设计能力。模型演化出了原生的Spec(规格说明书)行为,能够以架构师视角在编码前主动拆解功能、结构和UI设计。

该模型在超过10种编程语言(包括GO、C++、Rust、Python等)和数十万个真实环境中进行了训练。

测试显示,M2.5能胜任从系统设计(0-1)、开发(1-10)到功能迭代(10-90)及最终代码审查(90-100)的全流程。

为了验证其在不同开发环境下的泛化性,MiniMax在Droid和OpenCode等编程脚手架上进行了测试。

结果显示,M2.5在Droid上的通过率为79.7,在OpenCode上为76.1,均优于上一代模型及Claude Opus 4.6。


复杂任务处理:更高效的搜索与专业交付

在搜索和工具调用方面,M2.5展示了更高的决策成熟度,不再单纯追求“做对”,而是寻求以更精简的路径解决问题。

在BrowseComp、Wide Search和RISE等多项任务中,M2.5相较于前代节省了约20%的轮次消耗,以更优的token效率逼近结果。


针对办公场景,MiniMax通过与金融、法律等领域资深从业者合作,将行业隐性知识融入模型训练。

在内部构建的Cowork Agent评测框架(GDPval-MM)中,M2.5在与主流模型的两两对比中取得了59.0%的平均胜率,能够输出符合行业标准的Word研报、PPT及复杂的Excel财务模型,而非简单的文本生成。



技术底座:原生Agent RL框架驱动线性提升

M2.5性能提升的核心驱动力来自于大规模强化学习(RL)。

MiniMax采用了名为Forge的原生Agent RL框架,通过引入中间层解耦了底层训推引擎与Agent,支持任意脚手架的接入。

在算法层面,MiniMax沿用了CISPO算法以保障MoE模型在大规模训练中的稳定性,并针对Agent长上下文带来的信用分配难题,引入了过程奖励机制(Process Reward)。

此外,工程团队优化了异步调度策略和树状合并训练样本策略,实现了约40倍的训练加速,验证了模型能力随算力和任务数增加呈现近线性提升的趋势。


目前,M2.5已在MiniMax Agent、API及Coding Plan中全量上线,其模型权重也将在HuggingFace开源,支持本地部署。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。