当前位置: 首页 » 资讯 » 新科技 » 正文

GLM-5架构细节浮出水面:DeepSeek仍是绕不开的门槛

IP属地 中国·北京 编辑:刘敏 硅基星芒 时间:2026-02-11 16:08:59

离春节不到一周,过去两年的经验告诉我们,国产AI新产品的爆发期又要来了。

Kimi K2.5在OpenRouter上一骑绝尘,Minimax也在官网上隐隐约约透露出M2.2的版本代号。

大家等得很焦急,智谱和DeepSeek年前是不是也得来点大动作?

这不,短短48小时内,三个独立的技术平台接连出现了与智谱新模型GLM-5相关的线索,形成了一条完整的信息链。

01 线索浮现:三平台齐曝 GLM-5 踪迹

2月7日,OpenRouter平台悄悄上线了一款代号为“pony-alpha”的模型。

根据实际测试的结果,它的思维链风格与智谱的GLM系列高度吻合,比如:

遇到常规回答,它会以“嗯,......”为开头进行思考;

遇到知识检索任务,就分点列出“1.分析请求:...”;

遇到代码任务,则会明确标注“用户要求......”。

而技术社区在把这个模型投入实际开发后,发现它在贪吃蛇、Minecraft等复杂的代码生成任务中表现相当稳健,但缺乏图像等多模态输入支持。

接下来的2月9日,vLLM推理框架仓库出现了编号为34124的pull request,在代码中首次明确出现了“GLM-5”标识。

更重要的是,代码表明其实现逻辑直接复用了DeepSeek-V3系列模型采用的DSA(DeepSeek Sparse Attention,稀疏注意力)机制,并集成了MTP(Multi-Token Prediction,多标记预测)技术。

几乎同时, Hugging Face transformers仓库合并了编号为43858的pull request,正式引入了智谱的GlmMoeDsa架构。

代码显示,GLM-5采用了78层Transformer解码器,前三层为稠密(Dense)结构,第四层及以后采用混合专家(MoE)架构,共配置256个专家网络,处理单个token激活其中8个,并辅以1个共享专家以保证基础能力稳定。

GLM-5的上下文窗口进一步扩展到了202K,词表规模为154880,相比前代GLM-4.7提升有限。

02 架构解析:效率与规模的平衡

在过去两年里,规模化法则(Scaling Law)的正确性已经得到充分验证。

前段时间广受好评的Kimi-K2.5也凭借国产模型中少见的1T参数量证明了“大就是好”。

不过,智谱创始人唐杰却在2026年的AGI Next峰会上提出了一个不同的看法:

单纯的模型扩展虽然是提升智能的有效路径,但本质上是“人类最轻松的偷懒方式”。

回过头来看即将诞生的GLM-5,若是按照社区揭晓的现有信息来看,其技术路线已经呈现出明显的“效率优先”导向,而非继续堆砌参数。

首先是混合专家(MoE)架构,这个词在如今的AI时代应该已经不再陌生,它将模型参数分散至多个专业化的子网络,也就是我们所说的“专家”,推理时可以只调用与任务最相关的少数专家。

GLM-5采用“256专家+8激活”的配置,在维持更大规模参数总量的同时,单次推理只需调用约3%的参数,对计算成本和响应延迟都实现了有效控制。

前3层保留稠密结构则是为了确保模型具备基础语言理解能力的稳定性,以避免稀疏化带来的表征断裂风险。

然后是智谱选择了已被DeepSeek验证的稀疏注意力机制(DSA),而非自行研发同类机制。

前面已经提过,GLM-5对DSA的集成属于架构复用,代码中明确显示GLM-5中的“GlmMoeDsaForCausalLM”类直接继承自“DeepseekV2ForCausalLM”。

论文地址: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DSA机制是DeepSeek在五个月前开源的算法。

传统大模型在处理长文本时,自注意力机制决定了每个词都要与前面的所有词计算一次注意力关系,计算量随文本长度呈平方级增长,这就导致长文本的推理成本居高不下。

DSA提出了用精准筛选来代替全文扫描的新思路:对于每个词,筛选出与之最相关的一部分词并进行深度计算。

模型需要为每一个当前词配备一个轻量级的索引器,用极简的计算方式来快速评估当前词与历史词之间的相关性,并输出一个相关性分数。

由于使用ReLU代替Softmax作为激活函数能够避免指数运算开销,这个流程只需要消耗自注意力机制约5%的计算资源。

在得到相关性分数后,模型就可以仅选取最相关的k个历史词进行自注意力计算。论文中以128K上下文场景为例,取k=2048,计算量可以足足减少98%。

为了确保筛选词汇的质量,DeepSeek当时就采用了分两阶段的训练策略:先让索引器在稠密注意力模式下学习“哪些词更值得被关注”,等到输出分布与自注意力对齐后再切换到稀疏注意力模式。

实际测试下来,在H800 GPU上处理长文本时使用DSA能够降低约40%至50%的推理成本,核心任务上的性能损失还不到1%。

因此,DSA机制不是简单的跳过信息,而是用低成本的路由实现了计算资源的精准“按需分配”,使模型兼顾长上下文场景下的能力和效率。

最后则是多标记预测(MTP)技术,又是DeepSeek的经典代表技术之一。

这项推理加速机制从根本上改变了大模型token生成的模式。标准Transformer架构采用严格的自回归方式:模型每次前向计算只会预测下一个词,长文本场景下所需的计算次数可想而知。

MTP则允许模型在前向计算中一次预测多个连续的词,以此减少迭代次数并提升计算效率。

单纯把预测目标从一个词变成多个词肯定会提高出错的概率,因此MTP的实现依赖于训练阶段的特殊设计:模型同时预测当前词和后续多个词的联合分布,损失函数也被调整为覆盖多个未来位置的预测目标,让模型学会局部词序列的生成规律。

听起来有些抽象,用一个简单的例子来说明:

在Python编程时,模型识别到用户输入了函数定义关键字“def”,传统方式需要逐个字符预测后续的内容。

若是使用MTP,模型可能直接输出“ calculate_sum(a, b)”这个完整代码语句。

原因很简单:代码具有强语法规律性,函数名后必然跟随括号和参数。模型在训练中早已学会这种语法结构,所以才能安全地一次预测多个token。

实际测试结果显示,在代码、JSON、SQL等结构化文本生成任务中,MTP能够将token生成速度提升2-3倍。

03 产业洞察:技术复用的趋势不可阻挡

基于社区测试和技术架构推演的结果,我们大致可以确认:

GLM-5在代码生成逻辑推理两个场景具有优势和竞争力。

pony-alpha在Minecraft这个复杂项目中展现出的代码能力,再加上对DSA等DeepSeek经典技术的复用实现了对长序列的高效处理,GLM-5有望在软件开发辅助、算法设计等垂直领域形成差异化价值。

但短板也不容忽视。社区测试已经明确指出GLM-5暂无多模态能力,无法处理图像、音频等非文本输入。

在当前国内主流大模型普遍向视觉语言联合理解演进的背景下,这一缺失必然会限制GLM-5在AIGC创作场景中的适用性,并在春节期间进一步被放大。

更有趣的是,现有的几条消息表面上是关注GLM-5带来的新突破,实则句句离不开DeepSeek的经典技术。

希望几天之后智谱能给我们带来新的惊喜。

智谱AI选择直接集成开源技术体现对研发效率重视的同时,也反映出国产大模型研发路径的转变:“开源+优化”比“闭源+自研”更务实。

AI行业即将告别参数规模的军备竞赛,专注于推理效率上的精细化运营。在控制计算成本的前提下,如何提升垂直表现将成为下一阶段竞争的关键维度。

标签: 模型 技术 架构 注意力 代码 参数 智谱 任务 社区 场景 文本 效率 函数 能力 国产 机制 规模 学会 实际 语言 模式 路径 基础 传统 代号 计算资源 全文 序列 精准 细节 方式 水面

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。