当前位置：首页 » 资讯 » 新科技 » 正文

DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy：宝藏画廊

IP属地中国·北京 机器之心Pro 时间：2026-03-16 14:19:26

机器之心报道
最近几年，大模型赛道好不热闹。
叫得上名字的几乎数都数不过来：从 GPT、Llama、Gemma、Mistral，到 DeepSeek、Qwen、Kimi、GLM、MiniMax 等等，新模型几乎以周更的速度出现。
但问题是，当架构创新越来越多时，理解它们反而变得越来越困难。不同论文里的模型结构图风格各异、模块命名不统一，即便是研究者，也很难快速看清一个模型究竟在哪些地方做出了关键改动。
如果把过去几年主流模型的架构放在一起，你会发现一个明显的空白：我们拥有大量模型，却缺少一张清晰的大模型架构图。
最近，AI 研究者 Sebastian Raschka 就尝试给了这样一张图，他将过去几年主流大模型的结构重新绘制，并整理成了一个在线图谱「LLM Architecture Gallery」。

原文地址：https://sebastianraschka.com/llm-architecture-gallery/#card-olmo-2-7bGitHub 地址：https://github.com/rasbt/llm-architecture-gallery
根据 Raschka 介绍，该网站汇集了他此前两篇博客中的内容，这两篇博客分别为《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》。
从「LLM Architecture Gallery」页面结构上看，这个图谱几乎像一张大模型名录。
这里汇集了大量近年来出现的主流模型，包括 Llama、DeepSeek、Gemma、Mistral、Qwen、Kimi、GLM等多个系列，参数规模从几亿参数的小模型，一直延伸到千亿乃至万亿级模型。

点击任意模型即可链接到对应位置，比如，这里我们点击 DeepSeek R1，链接就跳转到相应的模型卡：

每一张模型卡都会展示该模型的核心架构图、关键模块设计、参数规模、发布时间、相关概念等基本信息，让读者能够在同一套视觉框架下快速理解模型的结构组成。

不止 DeepSeek R1，像 Gemma、Llama 等一系列主流模型，也都被纳入这一图谱之中。用户只需点击对应模型名称，就可以进入该模型的专属页面，查看其完整架构示意图以及关键设计细节。
对于研究者而言，「LLM Architecture Gallery」相当于提供了一份可快速查阅的大模型架构索引，用户可以在一个页面中浏览和对比不同模型的设计思路，模型架构的关键创新点，从而更高效地理解技术演化路径，也为后续的研究和模型设计提供参考。

正如 AI 研究者 Andrej Karpathy 所评价的那样：「这简直就是一个创意、想法的资源库。」

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

刚刚 | 又一品牌宣布涨价！

追觅戒指 Glow 正式发布：全球首创指尖 AI 心电监测，重塑指尖智能穿戴新标杆

“中国芯”点亮感知未来，这场传感产业创新大会看点十足

哈啰被央视“3·15”晚会点名，除了租赁乱象仍有“灰色交易”待解

从泡椒凤爪到AI投毒，315撕下了多少消费企业的“新装”？

养龙虾不如养骡子，MuleRun想帮你0门槛认养一头会自进化的“AI骡子”

全站最新

刚刚 | 又一品牌宣布涨价！

追觅戒指 Glow 正式发布：全球首创指尖 AI 心电监测，重塑指尖智能穿戴新标杆

“中国芯”点亮感知未来，这场传感产业创新大会看点十足

哈啰被央视“3·15”晚会点名，除了租赁乱象仍有“灰色交易”待解

热门推荐

百亿私募对龙虾下封杀令，严禁在办公终端设备上安装使用

《直播电商消费者满意度调查报告（2026）》发布，消费者呼吁强化源头治理

玻尿酸王座崩塌：华熙生物从1400亿到217亿的生死突围

刚刚 | 又一品牌宣布涨价！

追觅戒指 Glow 正式发布：全球首创指尖 AI 心电监测，重塑指尖智能穿戴新标杆

“中国芯”点亮感知未来，这场传感产业创新大会看点十足

哈啰被央视“3·15”晚会点名，除了租赁乱象仍有“灰色交易”待解

从泡椒凤爪到AI投毒，315撕下了多少消费企业的“新装”？

养龙虾不如养骡子，MuleRun想帮你0门槛认养一头会自进化的“AI骡子”

在GDC，我看到AI进入“游戏时间”

Meta宣布Instagram自5月8日起不再支持端到端加密消息功能

AWE 2026：重构冷冻新形态，容声“大冰象”破局中式家庭储鲜难题

人工智能立法将加快进程；"苹果税"下调5%|合规周报

智谱推出针对“龙虾”深度优化的基座模型

雷军：过段时间给大家汇报小米在AI方面的最新进展