当前位置: 首页 » 资讯 » 新科技 » 正文

跟Claude掰腕子,智谱MiniMax双模齐发

IP属地 中国·北京 编辑:郑佳 字母榜 时间:2026-02-12 20:17:12

在智谱率先宣布开源GLM-5后不到半天的时间里,MiniMax立马跟进上线M2.5编程模型。

就在发布模型的当日,智谱股价开盘大涨,一度涨超25%,周内累计涨幅超过 77%,市值突破1700亿港元。

MiniMax同日涨幅一度超过20%,总市值超过1800亿港元。两家公司的股价表现远超大盘。

这种涨幅在港股AI板块并不常见。

要知道,智谱在1月8日IPO时,发行价为116.2港元,当时的市值是518亿港元。短短一个月时间,市值翻了三倍多。

此外,智谱和MiniMax选择这个时间点发布,是有其现实考量。

2月12日正是企业和开发者春节前最后的工作窗口。

此时发布模型,既能赶在假期前完成技术社区的首轮传播,又能让开发者在春节长假期间有充足时间试用和讨论。

此前我曾认为,春节窗口期可能是裹着AI外皮的红包大战,归根结底,比的是红包的数量和额度。但现在看来,我的推断是错的。

AI产业在春节期间,进入了一个“万模齐发”的盛况。

从1月底开始,阿里的Qwen3-Max-Thinking、月之暗面的Kimi 2.5、阶跃星辰的Step 3.5 Flash已接连发布。

随后在2月8日,阿里千问团队又向Hugging Face提交了Qwen 3.5的支持代码,确认新模型即将到来。

字节跳动则计划在2月14日推出豆包 2.0,并且新的豆包包含了Seedream 5.0和SeedDance 2.0的完整矩阵。

至于DeepSeek的V4版本,其是否会在春节期间发布仍存疑,但即便不发布新版本,市场也已经足够热闹。

真正的战场,在于模型能力本身,红包退居其次。

花旗银行曾在1月26日明确指出,2026年标志着AI助手从技术验证迈向全民级应用的拐点,春节成为检验用户习惯养成的关键窗口。

谁能在这个长假,用模型留住用户,谁就能在接下来的一年里占据主动,就像2025年的DeepSeek一样。

01

智谱和MiniMax两大模型究竟怎样?

GLM-5的核心定位,是面向复杂系统工程与长程agent任务。

如果说过去的AI编程工具只是帮你写代码,那GLM-5想做的,是帮你完成整个系统工程。

智谱将这一模式叫做“agent engineering”,并且表示,这是“vibe coding”的下一阶段。

不过这个说法并非空穴来风,前OpenAI联合创始人兼AI主管安德烈卡尔帕西(Andrej Karpathy)在“vibe coding”实践一周年时就曾表示过,开发者的角色正在从“写代码”转向“编排AI agent”。

GLM-5某种程度上是对这一趋势的回应。

几周前,开源社区曾流传一个名为“Pony Alpha”的神秘模型。它能进行长程交互、拆解复杂任务、在多轮对话中保持稳定上下文,一度引发广泛猜测。

如今答案揭晓,Pony Alpha正是GLM-5的匿名测试版本。

GLM-5在技术规格上实现了显著跃升。参数量从GLM-4.7的355B(激活 32B)扩展至744B(激活40B),预训练数据从23T token增加到28.5T token。

更大的参数规模意味着更强的知识储备和推理能力,但更关键的地方在于GLM-5的两项创新。

第一项是名为“Slime”的异步强化学习框架。

这套系统支持模型从长程交互中持续学习,在处理需要数十步操作的工程任务时保持策略一致性。

传统的AI编程工具往往在短对话中表现出色,但一旦任务链条拉长,模型就容易犯错,前后逻辑出现断裂。

Slime框架的设计初衷,就是让模型在长周期任务中保持“记忆”和“目标感”。

第二项是集成了DeepSeek的稀疏注意力机制(DSA)。

这套机制能让模型在保持长文本处理能力的同时,大幅降低部署成本。

DSA的机制其实很好理解,我举个例子,当你让AI分析一个包含数万行代码的项目时,它不需要对每一行代码都投入同等的计算资源,而是能够识别出哪些是关键逻辑、哪些是重复模板。

因此整个模型的运行效率就会提升,整体运行成本也会降低。

根据智谱给出的测试分数,GLM-5在SWE-bench-Verified和Terminal Bench 2.0中分别获得77.8和56.2,是目前开源模型的最高分数。

着重介绍一下后者,Terminal Bench 2.0是测试模型在命令行环境中的操作能力,比如能否正确执行文件操作、调用工具、处理错误。

56.2的分数表明,GLM-5已经具备了相当程度的“动手能力”。

在agent能力上,GLM-5在 BrowseComp、MCP-Atlas 和τ²-Bench 等多个评测基准中取得开源 OTA表现。

特别值得关注的是Vending Bench 2测试。

这是最近比较火的基准。它的要求是模型在模拟环境中经营一家自动售货机公司,周期为一年。

它要自己决定进货、定价、库存结构、现金流管理,在资源有限的情况下持续优化利润。

GLM-5在这个测试中,最终账户余额达到4432美元,也就是说其具备一定的长期规划和资源管理能力,至少比我强。

MiniMax的最新模型M2.5目前在模型界面已经可以选择调用。

这是一个为agent场景原生设计的模型,MiniMax官方称其对标的是 Claude Opus 4.6。

不过与智谱不同,MiniMax官方并未公布其论文或Hugging Face权重。

M2.5模型激活参数量为10B,在显存占用和推理能效比上具有明显优势。

相比GLM-5的40B激活参数,M2.5走的是“小而美”的路线,用更少的参数实现更高的效率。

该模型支持PC、App、跨端应用的全栈编程开发,尤其适配Excel、深度研究(deep research)、PPT 等生产力场景。

从社区反馈来看,MiniMax M2.5在成本效益上保持了该企业一贯风格,便宜、实惠。

有开发者在外网论坛上分享,M2.5在处理日常编程任务时,速度比 Claude Sonnet 4.5快2倍,API成本却只有后者的8%。

02

它们有何不同?

两个模型都将编程能力作为核心竞争力,但技术路径有所不同。

GLM-5通过更大的参数规模和更强的预训练数据来实现能力提升,在处理大型代码仓库和复杂系统工程方面展现优势。

它就像一个经验丰富的架构师,见过足够多的代码模式、理解足够深的系统逻辑,因此能够在复杂场景中给出更全面的解决方案。

而MiniMax M2.5则通过更高效的架构设计,在推理速度和成本控制上更具优势。

虽然经验积累不如架构师丰富,但在常见任务上反应更快、执行更高效。

依我推测,GLM-5应该更适合专业程序员处理复杂的、长时的、系统级任务,比如一键克隆Web UI、构建仿真桌面,这些需要深度理解和长程规划的工程项目。

MiniMax M2.5则更适合全栈开发、跨端应用等生产力场景中表现更好,特别适合那些需要快速迭代、频繁调用的日常开发任务。

03

股价上涨并非模型

但我认为这轮上涨并非单纯的新模型发布效应。

智谱除了发布模型以外,还宣布了产品的涨价,GLM Coding Plan价格上调30%以上。

智谱在价格调整函中明确表示,此次涨价源于“GLM Coding Plan市场需求持续强劲增长,用户规模与调用量快速提升”。

为保障高负载下的稳定性与服务质量,智谱还同步加大算力与模型优化投入。

这个逻辑耐人寻味。

在AI大模型行业,大多数公司都在通过降价来抢占市场份额,DeepSeek就是如此,以极低的价格冲击市场,各家纷纷跟进降价。

但智谱选择了相反的策略,提升产品能力,然后涨价。

但用户真的愿意为更强的能力付费吗?

GLM-4.7发布后,其MaaS平台的年度经常性收入(ARR)从2000万元增至超5亿元,10个月获得25倍增幅。

这说明,在AI编程这个细分市场,专业用户确实愿意为真正能提升生产力的工具买单。

不过,和智谱股价上涨一样,MiniMax股价上涨的原因,也不全是来自于新模型的发布。

2月10日,MiniMax获得了摩根大通的首次覆盖,获得“超配”评级和 700 港元目标价,并在当日引发股价一度上涨10.7%。

摩根大通明确指出,MiniMax 2025年前三季度海外收入占比高达 73.1%,远超国内AI同行。

因此摩根大通将MiniMax描述为 “天生全球化”的AI企业,认为其全球化布局是核心竞争力。

国际市场中,OpenAI、Anthropic、谷歌的定价方案都远远高于MiniMax,这就导致后者的核心竞争力更强。

不仅如此,欧美市场对AI工具的接受度和付费能力,普遍高于国内市场。

MiniMax的这一优势,在当前的国际环境下显得尤为宝贵。

可以预见的是,2026年的春节,注定会成为中国AI发展史上的一个重要节点。

智谱和MiniMax的同时抢跑,虽然只是这个宏大叙事中的一个小小章节。

但它至少说明了一件事,国产大模型公司已经不执着于比参数和融资规模了,而是真的在琢磨怎么把技术变成开发者愿意掏钱的工具。

标签: 模型 glm ai minimax 智谱 编程 港元 代码 股价 开发者

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。