作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com
Kimi K2的发布几乎没什么预兆。
2025年7月11日深夜,月之暗面直接开源了这个万亿参数模型,整个AI圈子一下子就热闹起来。模型的能力很强,尤其是在代码和Agent任务上,没多久,它就和Grok 4一起出现在了马斯克转发的热门模型趋势榜单上。
热度是有了,但这次的感觉和以往很不一样。
很多人还记得月之暗面曾经在市场投放上花巨额预算的那段时期。根据公开信息,当时为了给产品引流,公司曾在多个平台进行过激进的竞价广告投放,高峰期月预算达到数亿元。
这次Kimi的方式显然变了,取而代之的是一场更热闹也更有趣的线上派对,主角就是Kimi背后那群工程师和研究员。方式就是在国内外技术讨论度更高的几个社交媒体上用自己的方式,热烈地讨论着这个新诞生的“模型”,和自己在其中引以为傲的工作。
这让我们有机会看到这家公司的一些侧面。
1
更通透开放的介绍K2
这场“团建”其中一个重要舞台在知乎。
在一个提问“Kimi发布首个万亿参数开源模型K2,哪些信息值得关注?”的页面下,月之暗面的“接生群”成员们,开始陆续下场回答。这里说的“接生群”,是月之暗面内部对K2研发的一个戏称。
月之暗面Infra团队的刘少伟没有绕弯子,他直接承认K2在架构上“大体上是复用了DeepSeek-V3的架构”,并且贴了一张清晰的对比图。图里能看到Kimi选择的路线是“fewer heads, more experts”,也就是用更少的注意力头和更多的专家模块。他解释说,这么做是为了在和V3差不多的成本下,拿到更低的loss。
研究员Flood Sung的分享则充满了对结果的兴奋。他觉得K2最值得关注的有两点,一个是MuonClip优化器带来的漂亮loss曲线,另一个就是Agent能力。为了做好Agent,他说团队建了一个“一生二,二生三,三生万物”的大规模自动化数据生产工厂。这个比喻听起来就很有画面感。这其实也正体现了在“未来谁更接近AGI”这个问题上,Kimi更激进的方向——试图通过复杂的Agent框架,来直接锤炼模型的思维能力。
负责后训练的研究员Dylan也带来了一点不一样的声音。他很坦诚地说,K2“实际上就是一个刚出生的baby”,虽然有灵性,但缺点也不少,他自己甚至觉得“略感惭愧”。这些声音拼在一起,让隐藏在技术细节背后的K2变得立体起来。
这些分享很快在社区里有了回响。Hugging Face的研究主管Leandro von Werra就在X上说,他个人更喜欢工程师和研究员这种随性的网络帖子和讨论,因为“这样更容易愉快地理解他们决策背后的思考过程”。
一个更有意思的现象是,过去很长一段时间,都是国内开发者翻译国外的技术博客。这次,一些海外开发者开始翻译阅读Kimi团队成员的文章,然后分享到社区。有人评价说,这是一篇“对模型背后思考过程的优美总结/描述” 和一篇“基于能力营销的精彩反思/宣言”。
这种话语权的微妙变化,都来自Kimi终于“想通了”,从过往对外在技术上并不怎么讨论,到开始营造某种类似lab的气氛,鼓励大家对外“写博客”。
1
Moonshot 的 Taste
技术分享之后,Kimi的研究员们开始给这些被吸引来的同行推介自己的公司。方式上主打一个AI创业圈最近很爱聊的“品味”。
月之暗面的团队成员Crystal在X上的一段话,被很多人转发。她说“我们的模型叫 Kimi,但公司名叫 Moonshot——灵感来自 Pink Floyd 的专辑《月之暗面》。我们是一群热爱摇滚(电台司令、平克·弗洛伊德)和电影(昆汀、库布里克)的科学家团队。我加入的一个重要原因就是觉得味道很对味”。
这种味道渗透在公司的各个角落。比如,他们的会议室,名字都取自传奇乐队,A到D区是The Rolling Stones、metallica、Bowie、Queen,E到G区则是Radiohead、Guns N' Roses、Nirvana。
“品味”也直接影响着他们的产品哲学。Crystal在一篇博客里复盘了Kimi Researcher的UI设计历程,讲述了团队如何从模仿精致但平庸的风格,到逐渐意识到真正有价值的设计必须敢于突破常规。他们把这称为“惨痛教训”,最终形成的美学标准是拒绝模板化,追求能激发用户感受的独特体验。
类似的细节甚至延伸到了App Store的版本更新历史里。
有网友挖出,Kimi的更新日志里引用了哲学家维特根斯坦和记者菲利普·格雷厄姆的话,把这些细节也与Kimi的品味结合起来,称它是“所有AI实验室中品味最佳”的。
工程师们的日常分享也充满了幽默感和人情味。有人会玩技术谐音梗,在一条讨论PyTorch新优化器Muon的推文下,俏皮地回复“to the ‘Muon’”。
也有一些能展现内部工作状态的段子。比如,Kimi用来推理的GPU在深夜会进入一种叫“潮汐GPU”的闲置状态,用来跑训练任务。但K2火了之后,“残酷现实”是“Tide GPU已售罄”。还有人分享内部对话,说想找个速度更快的K2爽一下,被告知“不行,因为没卡”,想加钱也被拒了,理由还是“因为没卡”。
Kimi团队的这场线上“团建”,就这样持续了几天。它既有来自Infra和算法团队的技术硬核,也有贯穿在各个细节里的文化品味。但更多的,可能是那种团队上下都藏不住的喜悦和自豪感。蛰伏许久之后,他们终于有了再一次证明自己技术实力的机会。
这种情绪,也体现在团队成员们在X上刷屏似地转发着各类KOL和开发者对K2的赞赏。
“年初 DeepSeek-R1 暴涨之后,很多人说 kimi 是不是不行了,你们是不是恨死 DeepSeek 了?恰恰相反,不少同事都认为 DeepSeek-R1 的爆火是个大好事, 它证明了硬实力就是最好的推广,只要模型做的好,就会获得市场认可;他证明了那条我们相信的路不仅能走通,而且是一条康庄大道。 唯一的遗憾就是:这条路不是我们走通的。”Kimi的研究员“熊狸”在博客里写道。
“在年初的反思会上,我提出了一些相当激进的建议,没想到植麟后续的行动比我想的还要激进,比如不再更新 K1 系列模型,集中资源搞基础算法和 K2。”他写道。
“2025 年,智能的上限仍然完全由模型决定,作为一家以 AGI 为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。”
与过往靠投放来放大产品上的声量相比,回归到一个预训练模型竞技场里,硬碰硬和最主流模型竞争,然后把自己的研究体验和成果分享给整个技术社区,显然是这些研究员们更能有成就感的方式。而这种方式也是整个技术社区最容易接受和喜欢的方式。
就像团队成员Haobing在他的推文里写下的那句“No structure, just pure intelligence. I'm truly proud to be a part of Kimi”。K2对于月暗的意义不只是一个模型,它让这家公司的人们又“活”了起来。
点个爱心,再走 吧