当前位置：首页 » 资讯 » 新科技 » 正文

大模型解剖图火了，30多个开源模型架构差异一目了然，还可接入AI

IP属地中国·北京 DeepTech深科技 时间：2026-03-16 18:20:37

2026 年的前两个月，开源大模型的发布节奏已快至令人应接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智谱 AI 的 GLM-5、Cohere 的 Tiny Aya……它们的名称如流水般接踵而至，参数量从 3B 至 1T 不等，每一款都宣称是“SOTA”或者“最强开源”。
然而，如此快的更新速度，对于普通开发者而言，莫说深入研究，仅仅是分辨区别就已经耗费大量精力。更不用提许多技术报告的表述含糊，架构图绘制风格各异，想要进行横向对比十分困难。
为了解决这些问题，一个名为“LLM Architecture Gallery”(大语言模型架构画廊)的项目上线了。顾名思义，就是让你像逛“画廊”一样，浏览不同模型的架构图。

（X）
这个项目的作者是 Sebastian Raschka，是机器学习领域的知名研究者，写过《Python Machine Learning》和《Build a Large Language Model (From Scratch)》这两本深受欢迎的专业书籍。

（Sebastian Raschka.com）
他把过去几个月撰写的两篇长文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中绘制的所有架构图抽取出来，用统一的视觉语言重新呈现，集中放在一个页面上。点击任意一张图可以放大，每张图下方附带一份“规格表”，列出模型的参数量、发布时间、注意力机制类型等关键信息。想深入某个模型，可以点开“view in article”页面会直接跳转到原文对应章节。

（LLM Architecture Gallery）
项目上线几小时后，Andrej Karpathy 在 X 上回复了 Raschka 的推文：“太好了！我的自动研究功能很需要这个内容的 Markdown 版本——一个创意池。”他最近发布的 autoresearch 项目：一个让 AI 自主跑实验的开源工具，正需要这类结构化的架构信息作为创意来源。
Raschka 也很快作出回复，并提供了 YAML 格式的元数据 GitHub 链接。Karpathy 随后表示他已经用 Obsidian 把博客文章导出成 markdown，并且“输入到了 autoresearch 循环中”。一个本意是方便人类阅读的架构图集，就这样被接入了 AI 自动化研究的工作流。

（来源；X）
就在今天，这个项目也冲上了 Hacker News 首页。一位用户评论说：“这让我想起了当年的 Neural Network Zoo，也是用可视化的方式展示不同架构。”也有人继续帮忙优化细节：“能不能按时间排序，画出架构演化的家谱树？能不能加一个比例视图，让参数量的差异在视觉上直观可感？”对于这些建议，Sebastian 表示他后续会持续完善。
回到项目本身，目前，这份图集收录了三十多个模型架构，从 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有图都按同一套视觉规范绘制：配色、图例、字体统一，DeepSeek V3 和 Qwen3 235B-A22B 被放在一起时，你一眼就能看出前者用了 MLA（Multi-Head Latent Attention，多头潜在注意力），后者用的是 GQA（Grouped-Query Attention，分组查询注意力）；DeepSeek V3 有一个“共享专家”模块，Qwen3 没有。
这类信息原本散落在几十页技术报告的不同角落，现在被压缩成一张对比图。
MoE（Mixture-of-Experts，混合专家模型）是 2025 年开源 LLM 的主旋律。所有主流的前沿开放权重模型都采用了这种架构。传统的“稠密”Transformer 会在每次生成 token 时激活全部参数，参数越多，算力成本越高。而 MoE 把参数分成若干“专家”，每次只激活其中一部分。DeepSeek V3 名义上有 6,710 亿参数，但实际运行时只激活 370 亿；Llama 4 Maverick 号称 4,000 亿参数，激活的只有 170 亿。
Raschka 在图集中把各模型的专家数量、激活比例、专家隐藏层尺寸都标注出来，让稀疏程度一目了然。Hacker News 上有人感慨：“我很惊讶这些模型在结构上有多相似，主要差异就是层的大小。”
另一位用户则看出了一些端倪，辣评“过去七年，LLM 架构有很多改进，但没有根本性的创新。今天最好的开放权重模型，如果你缩远了看，仍然很像 GPT-2，就是一堆注意力层和前馈层堆起来。”
这可以说是一个重要的观察。LLM 能力的惊人提升，更多来自训练方法的革新。比如 RLVR（Reinforcement Learning with Verifiable Rewards，可验证奖励的强化学习），而不是架构本身的突破。架构层面的优化，更多是为了让训练和推理更高效、成本更低，而不是让模型根本上更聪明。理解这一点，对选型和预期管理都有帮助。
最后总结一下，这个大模型架构的图集的实际用法很简单。
首先，你可以把它当作速查手册：想知道 Qwen3 和 DeepSeek V3 在注意力机制上有什么区别？打开页面，找到两张图，直接对比。规格表里会告诉你 Qwen3 用 GQA，DeepSeek V3 用 MLA；前者没有共享专家，后者有。
其次，每张架构图都链接到 Raschka 原文中的对应章节，如果你想深入了解某个技术细节：比如 QK-Norm（一种应用于查询和键向量的归一化技术）是什么、为什么能稳定训练，点进去就能读到解释。
第三，图集附带一份“概念速查”，解释 GQA、MLA、SWA（Sliding Window Attention，滑动窗口注意力）、NoPE（No Positional Encoding，无位置编码）、Gated DeltaNet 等术语，适合快速补课。
并且，正如 Karpathy 的用法所示，这份图集的价值不仅在于人类可读，还在于它的结构化程度足以被机器解析。Raschka 在 GitHub 上提供了 YAML 格式的元数据，包含每个模型的参数量、发布日期、技术报告链接、注意力类型等字段。如果你想写脚本批量分析这些模型的共性和差异，或者像 Karpathy 那样把它们喂给 AI 做自动化研究，这份元数据是现成的起点。
Raschka 还把整套架构图打包成一个超高分辨率的 PNG 文件（56M，182 百万像素，上传到 Zazzle，可以直接下单打印成实体海报。他自己也订了一张，但“还没收到货，暂时不能保证印刷质量”。页面底部留了一个 Issue Tracker 链接，欢迎任何人提交纠错或建议。
对于正在选型的工程师来说，这份图集的价值在于节省时间。你不用再翻几十页技术报告去找一个数字，也不用自己画对比表格。对于想搞懂“这些模型到底在结构上有什么区别”的研究者来说，统一的视觉语言让跨模型对比成为可能。
1.项目地址：https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b
2.开发者主页：https://x.com/rasbt/status/2033167146302210058
运营/排版：何晨龙

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

魏牌V9X首次公开设计，长城试图以东方美学重塑高端品牌叙事

全球开卖！英伟达CES同款机器人Reachy Mini登陆阿里速卖通

事关GEO乱象，多家公司回应

OpenClaw之后｜本周张江，来这场聊透「下一代智能体」的闭门组局

RortiX携“AI+具身智能”飞行器完整生态包馆登陆惊艳AWE

假图骗赔难分辨？扫描全能王“AI图片检测”功能筑牢消费安全防线

全站最新

魏牌V9X首次公开设计，长城试图以东方美学重塑高端品牌叙事

全球开卖！英伟达CES同款机器人Reachy Mini登陆阿里速卖通

事关GEO乱象，多家公司回应

OpenClaw之后｜本周张江，来这场聊透「下一代智能体」的闭门组局

热门推荐

通义发布并开源首个影视级配音多模态大模型

美银：未来五年人形机器人出货量年增86%，2060年总保有量将超汽车

报告：2月国内游戏市场销售收入332.31亿元

京东将建成全球最大具身数据采集中心

上海市新增1款已备案生成式人工智能服务

地瓜机器人完成1.2亿美元B1轮融资，加速具身智能软硬件全栈研发

阿里通义发布 Fun-CineForge：开源影视级配音大模型，攻克音画同步难题

打击“AI 垃圾视频”：谷歌首次直接投资儿童动画工作室 Animaj

上海发布生成式 AI 服务备案公告：全市累计备案模型达 150 款

视频号要有对手了？OpenAI 计划将 Sora 接入 ChatGPT：Disney 角色或成付费杀手锏

拒当“电子保姆”！谷歌首度注资动画工作室 Animaj：要用 AI 铁拳痛击“AI 垃圾内容”

魏牌V9X首次公开设计，长城试图以东方美学重塑高端品牌叙事

全球开卖！英伟达CES同款机器人Reachy Mini登陆阿里速卖通

奇安信发布龙虾安全伴侣，应对 openclaw“养虾潮”新风险

事关GEO乱象，多家公司回应