“DeepSeek-V3 是在 Mistral 提出的架构上构建的。”
欧洲版 OpenAI CEO 此言一出,炸了锅了。网友们的反应 be like:

这还是温和派,还有更直接的吐槽:Mistral 在胡说八道些什么……

还没吃上瓜的家人们别着急,咱们从头捋一捋这事儿:
在最近一次访谈中,当被问到如何看待中国开源 AI 的强势发展时,Mistral 联合创始人、CEO Arthur Mensch 这样回应:
中国在 AI 领域实力强劲。我们是最早发布开源模型的公司之一,而他们发现这是一个很好的策略。
开源不是真正的竞争,大家在彼此的基础上不断进步。
比如我们在 2024 年初发布了首个稀疏混合专家模型(MoE),DeepSeek-V3 以及之后的版本都是在此基础上构建的。它们采用的是相同的架构,而我们把重建这种架构所需的一切都公开了。

Arthur Mensch 很自信,但网友们听完表示:桥豆麻袋,这不对劲。
且不说 DeepSeek MoE 论文的发布时间和 Arthur Mensch 提到的 Mixtral 论文相差仅 3 天:


认真细扒起来,两种架构实际上思路也并不相同。
并且此前,Mistral 3 Large 还曾被扒出基本上照搬了 DeepSeek-V3 采用的架构……

▲ 图源





京公网安备 11011402013531号