10月28日讯(记者 武静静)上海的人工智能初创公司 MiniMax 于 2025 年 10 月 27 日发布了其最新大型语言模型 MiniMax M2。该模型基于 MIT 开源许可证,采用 2300 亿参数的混合专家(Mixture-of-Experts)架构,单次推理时激活约 100 亿参数。
目前MiniMax M2 目前已通过 MiniMax API 向全球开发者免费开放,试用期至 2025 年 11 月 7 日,并兼容 Hugging Face 与 vLLM 等主流框架。
据MiniMax公布的技术报告,该模型在全球权威测评榜单Artificial Analysis中总分位列全球前五、开源第一,与OpenAI、Anthropic、Google等国际巨头同台竞技。其在推理与代码生成任务中的表现超过了谷歌的 Gemini 2.5 Pro,API 使用成本约为 Anthropic Claude Sonnet 4.5的 8%。
MiniMax M2究竟表现如何,蓝鲸科技记者进行了一手实测。
在实验中,当记者向 M2 提供一条关于制作美术爱好者个人网站的 Agent 指令后,系统迅速理解需求并自动定义目标任务,生成了多阶段的执行计划。整个任务被拆解为近10 个步骤,包括内容生成、前端结构设计、样式渲染、资源调用等环节。右侧窗口实时显示 Agent 的执行进程,从任务分解到页面生成,几乎全程自动化完成。
几分钟后,一个包含图片展示与作品介绍的网页初版便被生成。由于目前的 Agent 运行在云端沙盒环境中,模型无法直接输出可公开访问的链接。当记者于是进一步提出指令:直接给我生成一个可以打开的网站链接。 M2 的响应逻辑相对完整它不仅列出了几种主流的免费部署方案,例如 Vercel(自动部署)、Netlify(拖拽部署) 和 GitHub Pages(免费托管),还进一步提供了一种无需联网的替代方案:生成一个可离线打开的单文件版网站,供用户直接下载与预览。这种像人一样灵活应变能力有点惊艳。
不过在第一次打开该文件时,发现页面出现了乱码。向 Agent 反馈后,M2 立即识别出问题可能与编码或浏览器设置有关,自动进入问题排查流程。经过几轮自动修复与重新生成,Agent 最终输出了一个结构清晰、样式统一、视觉审美在线的网页版本。从用户体验角度看,这种问题响应与动态调整的能力,已接近一个轻量级网页开发助手的水平。
以下是网页的部分展示:
除了网页生成,MiniMax M2 的 Agent 系统已覆盖更广泛的任务类型。它可以进行跨领域的多步推理、代码生成、数据分析、文案策划与知识检索等复杂任务。从技术上看,MiniMax 在 M2 阶段已将语言理解、工具调用与执行链控制能力进行深度融合,具备了端到端完成任务的雏形。
这也呼应了 2025 年以来 AI Agent 的快速进化趋势。过去一年里,从 OpenAI 的新工具到 Anthropic 的大规模融资,再到国内外多家推出的多智能体框架,Agent 已成为行业最活跃的创新方向之一模型从回答问题迈向执行任务。OpenAI 在其 Demo Day 中推出了名为 AgentKit的 Agent 构建工具,包括可视化 Agent Builder 拖拽节点、工具连接器库、服务数据源快速接入等组件,进一步强调其向企业级 Agent 平台转型的意图。
不过,目前 Agent 的端到端执行仍存在差距。以记者此前一次具体测试为例:曾尝试让 Kimi 与 Manus 等 Agent 做备份一位名人的新浪博客文章的任务。尽管任务逻辑清晰,但实际执行效果有限。Kimi 的 Agent 仅找到了约 7 篇文章 并成功导出至 Word 文档;Manus 的表现稍优,备份了 29 篇,但仍遗漏若干条目。相比之下,MiniMax M2 的 Agent 能否在执行完整度、上下文理解与任务控制上实现提升,正是其下一步验证的关键。
换句话说,Agent 虽能拆解任务、调用工具、做出执行计划,但在 全流程闭环 上仍有短板:可能是数据来源覆盖不全、上下文理解欠缺、执行链中断、后处理不够完善。与大型语言模型仅作问答相比,Agent 承载的是执行任务的期望,而这要求更高的模型整合能力、工具生态支撑、运行监控和反馈闭环。
在此背景下评测MiniMax M2模型,不仅要关注其技术参数,更要考察其智能体在复杂任务中的实际表现、工具生态的完善程度以及商业模式的可持续性这些维度将共同决定其在激烈市场竞争中的真实价值。





京公网安备 11011402013531号