当前位置: 首页 » 资讯 » 新科技 » 正文

大模型解剖图火了,30多个开源模型架构差异一目了然,还可接入AI

IP属地 中国·北京 DeepTech深科技 时间:2026-03-16 18:20:37

2026 年的前两个月,开源大模型的发布节奏已快至令人应接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智谱 AI 的 GLM-5、Cohere 的 Tiny Aya……它们的名称如流水般接踵而至,参数量从 3B 至 1T 不等,每一款都宣称是“SOTA”或者“最强开源”。

然而,如此快的更新速度,对于普通开发者而言,莫说深入研究,仅仅是分辨区别就已经耗费大量精力。更不用提许多技术报告的表述含糊,架构图绘制风格各异,想要进行横向对比十分困难。

为了解决这些问题,一个名为“LLM Architecture Gallery”(大语言模型架构画廊)的项目上线了。顾名思义,就是让你像逛“画廊”一样,浏览不同模型的架构图。


(X)

这个项目的作者是 Sebastian Raschka,是机器学习领域的知名研究者,写过《Python Machine Learning》和《Build a Large Language Model (From Scratch)》这两本深受欢迎的专业书籍。


(Sebastian Raschka.com)

他把过去几个月撰写的两篇长文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中绘制的所有架构图抽取出来,用统一的视觉语言重新呈现,集中放在一个页面上。点击任意一张图可以放大,每张图下方附带一份“规格表”,列出模型的参数量、发布时间、注意力机制类型等关键信息。想深入某个模型,可以点开“view in article”页面会直接跳转到原文对应章节。


(LLM Architecture Gallery)

项目上线几小时后,Andrej Karpathy 在 X 上回复了 Raschka 的推文:“太好了!我的自动研究功能很需要这个内容的 Markdown 版本——一个创意池。”他最近发布的 autoresearch 项目:一个让 AI 自主跑实验的开源工具,正需要这类结构化的架构信息作为创意来源。

Raschka 也很快作出回复,并提供了 YAML 格式的元数据 GitHub 链接。Karpathy 随后表示他已经用 Obsidian 把博客文章导出成 markdown,并且“输入到了 autoresearch 循环中”。一个本意是方便人类阅读的架构图集,就这样被接入了 AI 自动化研究的工作流。


(来源;X)

就在今天,这个项目也冲上了 Hacker News 首页。一位用户评论说:“这让我想起了当年的 Neural Network Zoo,也是用可视化的方式展示不同架构。”也有人继续帮忙优化细节:“能不能按时间排序,画出架构演化的家谱树?能不能加一个比例视图,让参数量的差异在视觉上直观可感?”对于这些建议,Sebastian 表示他后续会持续完善。

回到项目本身,目前,这份图集收录了三十多个模型架构,从 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有图都按同一套视觉规范绘制:配色、图例、字体统一,DeepSeek V3 和 Qwen3 235B-A22B 被放在一起时,你一眼就能看出前者用了 MLA(Multi-Head Latent Attention,多头潜在注意力),后者用的是 GQA(Grouped-Query Attention,分组查询注意力);DeepSeek V3 有一个“共享专家”模块,Qwen3 没有。

这类信息原本散落在几十页技术报告的不同角落,现在被压缩成一张对比图。

MoE(Mixture-of-Experts,混合专家模型)是 2025 年开源 LLM 的主旋律。所有主流的前沿开放权重模型都采用了这种架构。传统的“稠密”Transformer 会在每次生成 token 时激活全部参数,参数越多,算力成本越高。而 MoE 把参数分成若干“专家”,每次只激活其中一部分。DeepSeek V3 名义上有 6,710 亿参数,但实际运行时只激活 370 亿;Llama 4 Maverick 号称 4,000 亿参数,激活的只有 170 亿。

Raschka 在图集中把各模型的专家数量、激活比例、专家隐藏层尺寸都标注出来,让稀疏程度一目了然。Hacker News 上有人感慨:“我很惊讶这些模型在结构上有多相似,主要差异就是层的大小。”

另一位用户则看出了一些端倪,辣评“过去七年,LLM 架构有很多改进,但没有根本性的创新。今天最好的开放权重模型,如果你缩远了看,仍然很像 GPT-2,就是一堆注意力层和前馈层堆起来。”

这可以说是一个重要的观察。LLM 能力的惊人提升,更多来自训练方法的革新。比如 RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励的强化学习),而不是架构本身的突破。架构层面的优化,更多是为了让训练和推理更高效、成本更低,而不是让模型根本上更聪明。理解这一点,对选型和预期管理都有帮助。

最后总结一下,这个大模型架构的图集的实际用法很简单。

首先,你可以把它当作速查手册:想知道 Qwen3 和 DeepSeek V3 在注意力机制上有什么区别?打开页面,找到两张图,直接对比。规格表里会告诉你 Qwen3 用 GQA,DeepSeek V3 用 MLA;前者没有共享专家,后者有。

其次,每张架构图都链接到 Raschka 原文中的对应章节,如果你想深入了解某个技术细节:比如 QK-Norm(一种应用于查询和键向量的归一化技术)是什么、为什么能稳定训练,点进去就能读到解释。

第三,图集附带一份“概念速查”,解释 GQA、MLA、SWA(Sliding Window Attention,滑动窗口注意力)、NoPE(No Positional Encoding,无位置编码)、Gated DeltaNet 等术语,适合快速补课。

并且,正如 Karpathy 的用法所示,这份图集的价值不仅在于人类可读,还在于它的结构化程度足以被机器解析。Raschka 在 GitHub 上提供了 YAML 格式的元数据,包含每个模型的参数量、发布日期、技术报告链接、注意力类型等字段。如果你想写脚本批量分析这些模型的共性和差异,或者像 Karpathy 那样把它们喂给 AI 做自动化研究,这份元数据是现成的起点。

Raschka 还把整套架构图打包成一个超高分辨率的 PNG 文件(56M,182 百万像素,上传到 Zazzle,可以直接下单打印成实体海报。他自己也订了一张,但“还没收到货,暂时不能保证印刷质量”。页面底部留了一个 Issue Tracker 链接,欢迎任何人提交纠错或建议。

对于正在选型的工程师来说,这份图集的价值在于节省时间。你不用再翻几十页技术报告去找一个数字,也不用自己画对比表格。对于想搞懂“这些模型到底在结构上有什么区别”的研究者来说,统一的视觉语言让跨模型对比成为可能。

1.项目地址:https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

2.开发者主页:https://x.com/rasbt/status/2033167146302210058

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。