当前位置：首页 » 资讯 » 新科技 » 正文

实测MiniMax M2：与Gemini和Claude正面刚，任务拆解与变通能力有所提升

IP属地中国·北京 编辑：孙明蓝鲸新闻 时间：2025-10-28 15:52:11

从用户体验角度看，这种问题响应与动态调整的能力，已接近一个轻量级网页开发助手的水平。
10月28日讯（记者武静静）上海的人工智能初创公司 MiniMax 于 2025 年 10 月 27 日发布了其最新大型语言模型 MiniMax M2。该模型基于 MIT 开源许可证，采用 2300 亿参数的混合专家（Mixture-of-Experts）架构，单次推理时激活约 100 亿参数。
目前MiniMax M2 目前已通过 MiniMax API 向全球开发者免费开放，试用期至 2025 年 11 月 7 日，并兼容 Hugging Face 与 vLLM 等主流框架。
据MiniMax公布的技术报告，该模型在全球权威测评榜单Artificial Analysis中总分位列全球前五、开源第一，与OpenAI、Anthropic、Google等国际巨头同台竞技。其在推理与代码生成任务中的表现超过了谷歌的 Gemini 2.5 Pro，API 使用成本约为 Anthropic Claude Sonnet 4.5的 8%。
MiniMax M2究竟表现如何，蓝鲸科技记者进行了一手实测。
在实验中，当记者向 M2 提供一条关于制作美术爱好者个人网站的 Agent 指令后，系统迅速理解需求并自动定义目标任务，生成了多阶段的执行计划。整个任务被拆解为近10 个步骤，包括内容生成、前端结构设计、样式渲染、资源调用等环节。右侧窗口实时显示 Agent 的执行进程，从任务分解到页面生成，几乎全程自动化完成。
几分钟后，一个包含图片展示与作品介绍的网页初版便被生成。由于目前的 Agent 运行在云端沙盒环境中，模型无法直接输出可公开访问的链接。当记者于是进一步提出指令：直接给我生成一个可以打开的网站链接。 M2 的响应逻辑相对完整它不仅列出了几种主流的免费部署方案，例如 Vercel（自动部署）、Netlify（拖拽部署）和 GitHub Pages（免费托管），还进一步提供了一种无需联网的替代方案：生成一个可离线打开的单文件版网站，供用户直接下载与预览。这种像人一样灵活应变能力有点惊艳。
不过在第一次打开该文件时，发现页面出现了乱码。向 Agent 反馈后，M2 立即识别出问题可能与编码或浏览器设置有关，自动进入问题排查流程。经过几轮自动修复与重新生成，Agent 最终输出了一个结构清晰、样式统一、视觉审美在线的网页版本。从用户体验角度看，这种问题响应与动态调整的能力，已接近一个轻量级网页开发助手的水平。
以下是网页的部分展示：
除了网页生成，MiniMax M2 的 Agent 系统已覆盖更广泛的任务类型。它可以进行跨领域的多步推理、代码生成、数据分析、文案策划与知识检索等复杂任务。从技术上看，MiniMax 在 M2 阶段已将语言理解、工具调用与执行链控制能力进行深度融合，具备了端到端完成任务的雏形。
这也呼应了 2025 年以来 AI Agent 的快速进化趋势。过去一年里，从 OpenAI 的新工具到 Anthropic 的大规模融资，再到国内外多家推出的多智能体框架，Agent 已成为行业最活跃的创新方向之一模型从回答问题迈向执行任务。OpenAI 在其 Demo Day 中推出了名为 AgentKit的 Agent 构建工具，包括可视化 Agent Builder 拖拽节点、工具连接器库、服务数据源快速接入等组件，进一步强调其向企业级 Agent 平台转型的意图。
不过，目前 Agent 的端到端执行仍存在差距。以记者此前一次具体测试为例：曾尝试让 Kimi 与 Manus 等 Agent 做备份一位名人的新浪博客文章的任务。尽管任务逻辑清晰，但实际执行效果有限。Kimi 的 Agent 仅找到了约 7 篇文章并成功导出至 Word 文档；Manus 的表现稍优，备份了 29 篇，但仍遗漏若干条目。相比之下，MiniMax M2 的 Agent 能否在执行完整度、上下文理解与任务控制上实现提升，正是其下一步验证的关键。
换句话说，Agent 虽能拆解任务、调用工具、做出执行计划，但在全流程闭环上仍有短板：可能是数据来源覆盖不全、上下文理解欠缺、执行链中断、后处理不够完善。与大型语言模型仅作问答相比，Agent 承载的是执行任务的期望，而这要求更高的模型整合能力、工具生态支撑、运行监控和反馈闭环。
在此背景下评测MiniMax M2模型，不仅要关注其技术参数，更要考察其智能体在复杂任务中的实际表现、工具生态的完善程度以及商业模式的可持续性这些维度将共同决定其在激烈市场竞争中的真实价值。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

AI眼镜大混战：大厂抢入口，“Rokid们”紧张？

蚂蚁做健康，底气在哪？

vivo掏出“长焦Live神器”S50系列：大模型画质算法加持，小屏大电池，2999元起

蓝宝石喊话AMD等GPU制造商：给我们芯片和显存，放开设计自由

超20亿美元！辉瑞的口服减肥药救兵，来自中国药企

微言 | 网约货车乱象不止，平台不能只顾收费

全站最新

AI眼镜大混战：大厂抢入口，“Rokid们”紧张？

蚂蚁做健康，底气在哪？

vivo掏出“长焦Live神器”S50系列：大模型画质算法加持，小屏大电池，2999元起

蓝宝石喊话AMD等GPU制造商：给我们芯片和显存，放开设计自由

热门推荐

AI眼镜大混战：大厂抢入口，“Rokid们”紧张？

自动驾驶真的来了！一南一北这两款车两地试点

蚂蚁做健康，底气在哪？

vivo掏出“长焦Live神器”S50系列：大模型画质算法加持，小屏大电池，2999元起

蓝宝石喊话AMD等GPU制造商：给我们芯片和显存，放开设计自由

超20亿美元！辉瑞的口服减肥药救兵，来自中国药企

微言 | 网约货车乱象不止，平台不能只顾收费

英伟达发布“行业最高效”Nemotron 3开源AI模型系列

告别纸上谈兵！AI 培训找哪个公司？家剧社AI流量工厂用落地服务让效果说话

vivo S50系列正式发布：围绕“长焦 Live 神器”进行全面升级

一图读懂vivo S50：田曦薇代言 2999元起

内存涨价传导终端戴尔启动PC调价

全新纱缎光刻工艺！vivo S50图赏

深度智联“地产AI-Ready”战略落地：筑牢行业最“深”护城河

2G退网波及哈啰电动车！「永久会员」原来并不永久？

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

实测MiniMax M2：与Gemini和Claude正面刚，任务拆解与变通能力有所提升

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

实测MiniMax M2：与Gemini和Claude正面刚 ，任务拆解与变通能力有所提升

同类资讯

实测MiniMax M2：与Gemini和Claude正面刚，任务拆解与变通能力有所提升