当前位置: 首页 » 资讯 » 新科技 » 正文

MiniMax发布新一代Agent大模型M2.7,首次展示模型自我进化路径

IP属地 中国·北京 IT之家 时间:2026-03-18 16:21:28

IT之家 3 月 18 日消息,今日 MiniMax 稀宇科技发布新一代 Agent 旗舰大模型 M2.7,首次展示“模型自我进化”路径。该模型通过构建 Agent Harness 体系,据称能让模型深度参与自身训练与优化流程。公司称,在部分研发场景中,M2.7 可承担约 30%—50% 的工作量,并在内部评测集上实现约 30% 的效果提升。

在涵盖多种编程语言的 SWE-Pro 中,M2.7 以 56.22% 的正确率追平 GPT-5.3-Codex;在 Repo 级代码生成基准 VIBE-Pro 上,M2.7 得分 55.6%,几乎与 Opus 4.6 持平。

IT之家附官方详细介绍如下:

M2.7 能够自行构建复杂 Agent Harness,并基于 Agent Teams、复杂 Skills、Tool Search tool 等能力,完成高度复杂的生产力任务。例如,在研发 M2.7 的过程中,我们基于模型构建强化学习 Harness 中的数十个复杂的 skills,更新自己的 memory,驱动模型自身的强化学习,并基于结果优化强化学习过程和 Harness,开启模型的自我进化。

M2.7 在真实的软件工程中有优异的表现,包括端到端的完整项目交付,分析日志排查 Bug、代码安全,机器学习等。在基准测试 SWE-Pro 中,M2.7 得分 56.22%,几乎接近 Opus 最好的水平。这一能力同样延伸到了端到端的完整项目交付场景(VIBE-Pro 55.6%)以及对复杂工程系统的深层理解 Terminal Bench 2(57.0%)。在专业办公领域,我们提升了模型在各领域的专业知识和任务交付能力,在 GDPval-AA 的 ELO 得分是 1495,为开源最高。M2.7 对 Office 三件套 Excel / PPT / Word 的复杂编辑能力显著提升,能更好地完成多轮修改和高保真的编辑。M2.7 具备与复杂环境交互的能力,M2.7 在 40 个复杂 skills (> 2000 Token) 的 case 上,仍能保持 97% 的 skills 遵循率。在 OpenClaw 的使用中,M2.7 相比于 M2.5 也有了显著的提升,在 MM-Claw 的评测中接近 Sonnet 4.6。M2.7 具备优秀的身份保持能力和情商,除了生产力使用外,给互动娱乐场景的创新也准备了空间。

基于上述能力,M2.7 也在显著加速我们自身向一个 AI Native 组织的进化。


01、构建模型自我进化智能体

在最开始,我们分享一个我们内部让 M2 系列模型自我进化的实践,这也是对模型 Agent 能力边界的探索。

Agent Harness 通常依赖复杂的 Skills、记忆系统和其他组件来提升模型对不同工作环境的适应能力。在此基础上,我们在 M2 的早期版本中,将其引导为一个研究型 Agent 框架 —— 它能够与不同的研究项目组进行交互和协作。该系统覆盖了数据流水线、训练环境、评测基础设施、跨团队协作、持久化记忆 —— 让研究员可以驱动它来交付更好的模型。研究 Agent 驱动着产出下一代模型的迭代循环。研究员在每一层引导方向,模型在每一层负责构建。

以一个 RL 场景为例:研究员从一个实验想法出发,与 Agent 展开讨论。Agent 协助进行文献调研,持续跟踪预设的实验规格,完成数据流水线及其他对接工作,并启动实验。实验运行期间,它会自动监控和分析实验状态,并自动触发日志读取、问题排查、指标分析、代码修复、合并请求以及冒烟测试,识别并配置那些细微但关键的变更。这些工作过去可能需要来自不同团队的多位同事协作完成,而现在研究员只需在关键决策和讨论时介入。这大幅加速了问题发现和实验迭代,从而更快地交付模型。在这个场景下,M2.7 能够胜任 30-50% 的工作流。


我们在迭代过程中也意识到,模型自主迭代 harness 的能力也至关重要。我们内部的 harness 会自主收集反馈,建立内部任务的评测集,并基于此不断迭代自己的 Agent 架构、Skills / MCP 实现和记忆机制,来更好和更高效的完成任务。

举个例子,我们让 M2.7 优化一个内部脚手架上模型的软件工程开发表现。M2.7 全程自主运行,执行“分析失败轨迹 → 规划改动 → 修改脚手架代码 → 运行评测 → 对比结果 → 决定保留或回退”的迭代循环超过 100 轮。

这个过程中 M2.7 发现了针对模型的有效优化:系统性搜索温度、频率惩罚、存在惩罚等采样参数的最优组合;为模型设计更具体的工作流指引(如修复后自动搜索其他文件中的相同 bug 模式);在脚手架的 Agent Loop 中添加循环检测等优化。最终在内部评测集上效果提升 30%。

我们相信,未来的 AI 自我进化会逐步向完全自动化过渡,包括完全自主的协调数据构建、模型训练、推理架构、评测等等。我们用 M2.7 参与了 MLE Bench Lite 的 22 个机器学习任务测试,几乎囊括了研发的所有环节。

我们设计和实现了一个简易的脚手架来引导 Agent 进行自主优化,核心的模块包括短时记忆、自反馈以及自优化三个模块。具体来讲,Agent 完成每轮迭代后会形成一个短时记忆文件,同时对当前轮次的结果进行自反馈,从而给下一轮次提供潜在的优化方向,下一轮次基于所有历史轮次的记忆及自反馈链进行下一步的自优化。

我们总共测试三次,每次有 24 小时来迭代进化,从下图中能够看到 M2.7 随时间不断取得更高的性能。最好的一次取得 9 枚金牌,5 枚银牌,1 枚铜牌。三次平均是 66.6% 的得牌率,此成绩仅次于 Opus-4.6 (75.7%)、GPT-5.4 (71.2%),和 Gemini-3.1 (66.6%) 持平。


02、真实的软件工程

在编程等代码生成类任务上,M2.7 更深入地打磨了真实软件工程所需的编程能力,覆盖日志分析与 Bug 定位、代码重构、代码安全、机器学习、安卓开发等方向。

以线上最常见的线上生产环境故障调试为例 —— 这类任务不仅需要生成代码,还需要很强的综合推理能力。面对我们实际的生产环境告警,M2.7 能关联监控指标与部署时间线做因果推理,对轨迹采样做统计分析并提出精准假设,主动连接数据库执行验证根因,定位到代码仓库中缺失的索引迁移文件,甚至知道用非阻塞建索引先止血,再提 MR。

从可观测性分析、数据库专业知识到 SRE 级别的决策判断 —— 这不只是一个会写代码的模型,而是一个真正理解生产系统的模型。相比传统的人工排障流程,基于 M2.7,我们已多次将线上生产系统故障的恢复时间缩短到三分钟以内。

在单项编程能力上,M2.7 已具备国际一线模型水准。在涵盖多种编程语言的 SWE-Pro 中,M2.7 以 56.22% 的正确率追平 GPT-5.3-Codex;而在更贴近真实工程场景的 SWE Multilingual(76.5)和 Multi SWE Bench(52.7)中展现出更显著优势。

这一能力同样延伸到了端到端的完整项目交付场景。在 Repo 级代码生成基准 VIBE-Pro 上,M2.7 得分 55.6%,几乎与 Opus 4.6 持平 —— 这意味着无论是 Web、Android、iOS 还是 Simulation 类需求,都可以直接交给 M2.7 完成。

更值得关注的,是对复杂工程系统的深层理解。在对系统认知要求极高的 Terminal Bench 2(57.0%)和 NL2Repo(39.8%)中,M2.7 同样表现稳健,进一步印证了它不只擅长代码生成,更能深入理解软件系统的运行逻辑与协作流程。

为了提升开发效率,一个比较重要的特性是原生的 Agent Teams (多智能体协作)。Agent Teams 对模型提出了范式级要求:角色边界、对抗性推理、协议遵循、行为分化 —— 这些无法通过提示词,必须内化为模型的原生能力。

Agent Teams 场景下,模型需要稳定锚定角色身份、主动挑战队友的逻辑与伦理盲区、在复杂状态机中自主决策。下面是我们内部使用的一个做产品原型开发的 Agent Teams,里面包含了做产品原型的一个最小组织。


Agent Teams 协作模拟演示

03、专业办公

除了软件工程外,Agent 开始在办公场景中变得越来越有用,我们认为这是两个核心能力:

专业知识与任务交付能力。 模型需要具备各领域的专业知识,理解用户的需求。在衡量这一能力的 GDPval-AA 的评测中,M2.7 在 45 个模型中的 ELO 得分是 1500,仅次于 Opus 4.6、Sonnet 4.6 和 GPT5.4,超过了 GPT5.3。在最常见的办公文件处理上,我们系统性地优化了模型处理 Word、Excel 和 PPT 的能力。M2.7 在各种 Agent Harness 上,既能够基于模版和 skills 直接生成文件,也能够遵从用户的交互指令,对已有的文件做多轮的高保真编辑,最终给出可编辑的产物。与复杂环境的交互能力。 泛化的日常场景意味着模型需要灵活适应各类上下文、调用各种 skills 和工具、并在长程交互中保持稳定的指令遵循。M2.7 在这些方面有大幅提升。在 Toolathon 上,M2.7 的正确率 46.3%,达到了全球第一梯队水平。真实工作场景中的 Agent Harness 往往也需要理解和调用大量复杂的 skills。在 MM-Claw 的测试中,M2.7 在 40 个复杂 skills (> 2000 Token) 的 case 上,仍能保持 97% 的 skills 遵循率。

我们测试了在 Finance 领域的专业水准,与上代模型相比,模型的能力提升显著。例如,在 Finance 领域一个阅读研报并建模公司未来营收的场景,M2.7 可以自主阅读公司的年报与业绩沟通会纪要,交叉比对多篇研报,独立设计假设并构建营收预测模型,再基于模版产出 PPT 和研究报告 —— 像一个初级分析师一样理解、判断、输出,并在多轮交互中自我修正。从业者的评价是:产出物已经可以作为初稿直接进入后续工作流程。

下面是一个关于台积电的例子。

任务:基于台积电年报和业绩沟通会信息,构建台积电的营收模型,读取多个研报,设计对应的假设,基于最新的信息对台积电营收建模,然后基于 PPT 模版产出 PPT ,并写一个 Word 文档研究报告和 Excel 图表。









① PPT 报告演示





② Word 调研报告

最近 OpenClaw 爆火为代表的 Agent 社区蓬勃发展,我们很高兴看到 M2 系列模型帮助到了社区的繁荣。我们基于 OpenClaw 中的常用任务,构建了一个评测集 MM-Claw,涵盖个人学习规划,到办公文档的处理与交付、定时的专业信息调研与投资建议、代码开发与维护等工作与生活中形形色色的真实需求。M2.7 在这个测试中达到了接近 Sonnet 4.6 的水平,正确率是 62.7%。

04、互动娱乐

在 OpenClaw 等 Agent 脚手架的使用过程中,不少用户在使用 Agent 完成工作的同时,还希望模型具备比较高的情商和复杂人设保持能力。在有人设的情况下,用户不再只是让模型机械完成任务,而是开始自然于与 Agent “相处”。这促使我们思考,产品与交互设计、内容创作、甚至娱乐体验的构建,都可以被 AI 原生驱动的可能性。我们认为这会让 Agentic 模型的使用从单纯的生产力能进一步拓展到互动娱乐。为此,我们在 M2.7 中极大加强了人设保持和对话能力。

基于此,我们构建了一个 Agent 交互系统 OpenRoom,它将 AI 互动置入一个万物皆可互动的 Web GUI 空间。在这里,对话即驱动,实时产生视觉反馈与场景交互,角色可以主动地与环境交互。我们认为这个框架扩展性较高,能够随着模型 Agentic 能力的提升和社区的共建持续进化,探索出更多人与 Agent 之间全新的交互方式。为了促进这个领域的创新,我们已将这个原型项目开源(这个里面的代码大部分也是 AI 写的):

项目地址: github.com/ MiniMax-AI/OpenRoom

立即体验: openroom.ai

MiniMax M2.7 已在 MiniMax Agent 与开放平台上全量上线,期待用户和开发者朋友们能在 MiniMax M2.7 上探索出更多有趣场景。

MiniMax Agent:agent.minimaxi.com

API 服务:platform.minimaxi.com

Coding Plan 订阅:platform.minimaxi.com/subscribe/coding-plan

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新