当前位置：首页 » 资讯 » 新科技 » 正文

智谱新模型也用DeepSeek的MLA，苹果M5就能跑

IP属地中国·北京 量子位 时间：2026-01-20 18:45:58

梦晨发自凹非寺
量子位 | 公众号 QbitAI
智谱AI上市后，再发新成果。
开源轻量级大语言模型GLM-4.7-Flash，直接替代前代GLM-4.5-Flash，API免费开放调用。

这是一个30B总参数、仅3B激活参数的混合专家（MoE）架构模型，官方给它的定位是“本地编程与智能体助手”。
在SWE-bench Verified代码修复测试中，GLM-4.7-Flash拿下59.2分，“人类最后的考试”等评测中也显著超越同规模的Qwen3-30B和GPT-OSS-20B。

作为去年12月发布的旗舰模型GLM-4.7的轻量化版本，GLM-4.7-Flash继承了GLM-4系列在编码和推理上的核心能力，同时针对效率做了专门优化。
除了编程，官方还推荐将这个模型用于创意写作、翻译、长上下文任务，甚至角色扮演场景。
30B参数只激活3B，MLA架构首次上线
GLM-4.7-Flash沿用了该系列的”混合思考模型”的设计。
总参数量300亿，但实际推理时仅激活约30亿参数，使模型在保持能力的同时大幅降低计算开销。
上下文窗口支持到200K，既可以云端API调用，也支持本地部署。
目前官方还没有给出技术报告，更多细节还要从配置文件自己挖掘。

有开发者注意到一个重要细节：GLM团队这次首次采用了MLA（Multi-head Latent Attention）架构。这一架构此前由DeepSeek-v2率先使用并验证有效，如今智谱也跟进了。
从具体结构来看，GLM-4.7-Flash的深度与GLM-4.5 Air和Qwen3-30B-A3B接近，但专家数量有所不同——它采用64个专家而非128个，激活时只调用5个（算上共享专家）。

目前发布不到12小时，HuggingFace、vLLM等主流平台就提供了day0支持。

官方也在第一时间提供了对华为昇腾NPU的支持。

本地部署方面，经开发者实测在32GB统一内存、M5芯片的苹果笔记本上能跑到43 token/s的速度。

官方API平台上基础版GLM-4.7-Flash完全免费（限1个并发），高速版GLM-4.7-FlashX价格也相当白菜。

对比同类模型，在上下文长度支持和输出token价格上有优势，但目前延迟和吞吐量还有待优化。

HuggingFace：
https://huggingface.co/zai-org/GLM-4.7-Flash

[1]https://x.com/Zai_org/status/2013261304060866758智谱新模型也用DeepSeek的MLA，苹果M5就能跑

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

米哈游蔡浩宇AI公司首个视频模型曝光了

蔚来2026款乐道L90将搭载神玑NX9031高阶智能辅助驾驶芯片

加州初创公司PowerStation投放新型快充站：全太阳能供电，且免费

特斯拉Semi电动卡车电池架构曝光：创新垂直立方设计

苹果预订台积电6万片晶圆产能，2027年全力冲刺AI服务器芯片

广汽新一代智能座舱架构与电子电气架构明日发布

全站最新

米哈游蔡浩宇AI公司首个视频模型曝光了

蔚来2026款乐道L90将搭载神玑NX9031高阶智能辅助驾驶芯片

加州初创公司PowerStation投放新型快充站：全太阳能供电，且免费

特斯拉Semi电动卡车电池架构曝光：创新垂直立方设计

热门推荐

米哈游蔡浩宇AI公司首个视频模型曝光了

蔚来2026款乐道L90将搭载神玑NX9031高阶智能辅助驾驶芯片

加州初创公司PowerStation投放新型快充站：全太阳能供电，且免费

特斯拉Semi电动卡车电池架构曝光：创新垂直立方设计

苹果预订台积电6万片晶圆产能，2027年全力冲刺AI服务器芯片

广汽新一代智能座舱架构与电子电气架构明日发布

李想朋友圈飙脏话疑似内涵竞品东风日产成焦点

银河通用创始人王鹤：未来五年机器人技能将百花齐放

长安汽车总经理赵非：当前车企仅靠卖车已难以盈利

OpenAI回应马斯克要求罢免奥特曼：搞法律突袭扰乱诉讼

张雪在扛旗，严凯别再躲了

阿里年入上千亿、百度400亿，互联网大厂如何靠AI赚钱？

小程序安全考量：构建用户信任的数字化防线

智谱守精品，MiniMax攻规模：大模型没有乔布斯

泰策科技获基于大模型技术预案数字化专利展现软件信息领域创新力