![]()
在练习时长一年半后,今天中午,DeepSeek 终于端上了新模型 DeepSeek V4,还在文章里直接把压力给到华为和寒武纪。。。
![]()
这一次的更新,在性能上其实没太出乎大家的意料,要说吊打 GPT,脚踢 Gemini 也不太可能。
但在开源模型里基本也够了,属于是站在一个开源领先,能和顶尖闭源模型一战的地位上。
现在,大家可以直接去官网上免费试用。直接打开对话框,不用任何操作就是 V4。
![]()
而且如果你想氪金,不管是便宜量大的 DeepSeek-V4-Flash,还是价格直接涨了 8 倍的 V4-Pro,都可以直接用上开发者 API。
![]()
不过即使涨价了,它炸了我都夸他响。因为和同等性能的友商比,这价格依旧太香了。
DeepSeek-V4-Pro 百万 token 输出大概 24 块钱,Claude Sonnet 4.6 差不多要 100 块。性能差不多,价格直接打到四分之一左右,这就很 DeepSeek。
当然,DeepSeek 还给大家画了个饼,说这次模型的涨价只是暂时的。
等过段时间华为的卡到货了,模型的价格还会给大家直接打下来。
小字最有用的一集
![]()
总的来说,这两个模型,基本上把 DeepSeek 过去一年半里攒的几个大招,一口气全都给端出来了。
在性能上就不说了,V4 Pro 能和 Claude Opus 4.6、GPT 5.4、Gemini 3.1 Pro 这些闭源顶尖模型打个五五开。
![]()
在写代码的生产力测试的环境中,V4 Pro 的能力也处于大于 Sonnet 4.5 ,但是小于 Opus 4.6 的阶段。
![]()
在知识库的丰富程度,推理能力上也都能够大幅度领先其他开源模型,同时比肩世界顶级闭源模型。
![]()
同时更重要的是,这次 DeepSeek 发出来的两个模型,都能支持 100 万 token 的上下文长度。
这玩意有啥用呢?
这两个月,什么小龙虾,爱马仕这类的 Agent 工具是层出不穷。在 Agent 的工作环境里,每次对话时所消耗的上下文是个天文数字。
而模型的上下文长度越长,就意味着干活的时候能记住更多的细节。
之前 meta 的安全总监就翻过车,因为用的模型上下文长度不够,触发了 OpenClaw 的自动记忆压缩功能。
但一压缩,就把一些关键命令给忘掉了,结果就导致了这个安全总监的邮件给 AI 删了一大半。
![]()
而现在,DeepSeek 把百万上下文变成了模型的标配,新模型不管是 Pro 还是 flash,都能支持百万上下文长度。
这就意味着他俩干活的能力都很强。
我们也简单试了一下,给本红楼梦里随便贴了一段三体的科幻小说内容,然后丢给 DeepSeek V4 让它找。
结果用不着几秒,DeepSeek 就找到了异常。
![]()
同时和其他模型不太一样的是。
DeepSeek 的百万上下文还非常省钱。
大家都知道现在的大模型用的都是 transformer 架构,对话越长,KV Cache(临时缓存) 就越大,推理成本也越高,模型也就越花钱。
但这次,DeepSeek V4 直接变成了超级省钱冠军。
同样带着 100 万 token 的上下文干活,V4-Pro 每生成一个 token,背后的计算量差不多只要原来的四分之一。
模型用来记住前文的 KV Cache,也只剩原来的十分之一。
![]()
而这次 DeepSeek 之所以能把成本给打下来,靠的是一套全新的注意力机制。
HybridAttention。
![]()
它把过去的 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力)这两种技术结合了起来。
前者相当于是一本书写目录,后者相当于是给这个目录里的章节来写摘要。
有了目录和摘要辅助记忆之后,模型在干活的时候,真正需要计算的压力就降了不少。
同时,他们还用上了去年搓出来的 mHC 来保证长文本的稳定性,用了 Muon 优化器来让模型的参数更稳定。。。
![]()
在底层和显卡的适配优化上也下了一大堆功夫,在英伟达和华为的卡上都测试了自己做的 fine-grained EP,能让模型的推理速度提升 1.50 到 1.73 倍。
![]()
而且还用上了之前北大开源的 TileLang(Tile Language),让模型变得没有那么依赖老黄的 CUDA。
不过可惜的是唯一的缺点就是,目前的 DeepSeek 虽然很强很便宜,但这次的 V4 还是不支持多模态,也就是还是看不懂图片。
这块很有可能是它们下一代的目标。
![]()
另外,除了在小字催华为的卡之外,咱们还发现了 DeepSeek V4 的其他一些小彩蛋。
比如说在提到 Agent 能力的时候,除了给 Claude Code、OpenClaw 这些名声在外的产品做了优化,还提到了腾讯的 CodeBuddy 这个突兀的小资历。
![]()
这或许和前段时间,腾讯、阿里正在洽谈投资 DeepSeek 的消息,有一定关联。
还有在测试对比友商的时候,Kimi K2.6 和智谱 GLM-5.1 的一些能力,DeepSeek 的人没测上,因为友商的 API 繁忙了。。。
![]()
智谱官方在不久前,也友好地回应了:哥们你如果想要,咱们绝对支持,高速率账号安排上。
![]()
对了, DeepSeek 还给造卡的硬件厂商们,提了个建议,那就是别瞎堆带宽,要算好“算力与通信”的比例,这样才更省电省钱。
![]()
并且,DeeSeek 官方也很坦诚,直言目前和世界最先进的闭源旗舰模型,能力上还是有 3 到 6 个月的差距。
最后,可以说 DeepSeek 这些日子,是受到了不少的讨论和非议的。
人才流失、国产芯片适配失败、各种传闻真看得人挺揪心的。
![]()
有人说它们是江郎才尽、昙花一现。
而 " DeepSeek 新版本下周更新 " 的消息,也都快成了和贾会计下周回国一样,成了科技圈的笑话。
甚至还有网友做了 AI 梗图,说梁文锋是因为要玩原神,才耽误了 DeepSeek V4。。。。
![]()
但玩归玩,笑归笑,别拿你 D 老师开玩笑,DeepSeek 用实力证明,它依旧是那个开源的源神。
和华为等国产芯片厂商的合作,也让人看到了咱们在AI领域打破垄断的决心和实力。
去年 DeepSeek R1 的开源,给全球的大模型带来了大推理时代。
而今年的 DeepSeek V4,则是通过和华为等国产芯片厂商的合作,让人看到了咱们在AI领域打破垄断的决心和实力。
“ 不诱于誉,不恐于诽,率道而行,端然正己 ” 这是 DeepSeek 官方今天提到的 16 字真言。
而他们,也确实做到了。
撰文:早起 & 江江
编辑:江江 & 面线
美编:焕妍
图片、资料来源:
DeepSeek 官网
![]()





京公网安备 11011402013531号