当前位置: 首页 » 资讯 » 新科技 » 正文

Vercel CEO爆Kimi K2智能体准确率超GPT-5 50%?国产的风还是吹到了硅谷

IP属地 中国·北京 AI寒武纪 时间:2025-10-23 08:11:46


刷到了Vercel CEO 大赞Kimi K2 ,是企业内部实际的部署

估值93亿美元的美国知名云平台Vercel,其CEO吉列尔莫·劳赫(Guillermo Rauch)在x公开表示,在一项内部智能体真实场景基准测试中,来自中国的Kimi K2模型表现优于GPT-5和Claude Sonnet 4.5

根据劳赫于10月19日发布的信息,这项测试结果显示,Kimi K2在运行速度和准确率两个维度上均有优势


具体数据如下:

运行时间:Kimi K2为2分钟,而GPT-5和Sonnet 4.5为8-10分钟。K2的速度是后两者的5倍

准确率:Kimi K2高于60%,而GPT-5低于40%,Sonnet 4.5低于50%。K2的准确率比GPT-5高出50%。

劳赫同时提到,借助运行平台,可以实现零成本完成模型切换。

Vercel是一家总部位于旧金山的云端开发平台公司,为开发者提供将网站或AI应用从代码部署到线上的服务,其客户包括Netflix、OpenAI、Stripe等公司。Vercel也是Web开发框架Next.js的创建者和维护者。在2025年10月,该公司完成3亿美元融资后,估值达到93亿美元,Vercel也是2025年OpenAI开发者大会上重点展示的企业之一

硅谷多家公司已接入或转用

除Vercel的测试外,我发现硅谷已出现一股将工作流切换或接入K2模型的小高潮

此前在美国科技投资播客《All in》中,“SPAC之王”查马斯·帕里哈皮蒂亚(Chamath Palihapitiya)透露,他的公司已经把大量工作需求转移到Kimi K2模型上。他给出的理由是,K2不仅性能强,并且价格比OpenAI和Anthropic便宜很多

查马斯表示,由中国引领的开源模型,正在挑战美国闭源模型的领先地位

此外,一批科技公司,诸如Cline,Cursor,Perplexity, Genspark, Youware等也都宣布已接入K2模型。

客观讲,GPT-5、Claude Sonnet 4.5这样的顶级模型,在整体实力上还是要领先我们不少,推测Vercel这个结果因为是内部测试,非常规Benchmark的刷分逻辑,所以会有惊喜。理性认清差距的同时,还是应该为国产模型感到高兴,毕竟性能和价格摆在这里,顶尖的硅谷投资人和科技公司已经用行动说明一切。

K2 Agent 能力

其实在7月K2刚发布时我就第一时间充了API,当时在Claude code 中简单配置了一下,我还用K2捣鼓了一个给图片加上渐变底色的小工具,现在市面上有很多这样的工具,界面大概长这样:


但基本都是付费的,免费的输出会有水印,我也不想花钱,抱着试一试的态度就让K2帮我做了类似的小工具,前后花了1小时,踩了一些坑,核心功能就实现了,不过我的功能比较粗糙,目的是能用就行,反正最终结果就是K2帮我在桌面建了一个终端快捷方式,操作很简单,点击打开,拖入图片,就会自动处理,给图片加上渐变底色

我来晒一下,大家不要笑话,确实很粗糙,界面长这样:


比如拖入张图美女进行渐变底色处理:


处理过程:


处理完后,会输出5种效果:

生成: 紫色酷炫... ✅
生成: 薄暮余晖... ✅
生成: 抹茶拿铁... ✅
生成: 星夜极光... ✅
生成: 盛夏果实... ✅

我放两张大家感受一下效果:



个人感觉还可以,抱着试一试的心态让K2 做完这个小工具后,我当时内心的直观感受就是 Kimi K2 确实成了!由于平时比较忙,没时间优化这个工具,后面有时间了再搞一下,到时候免费分发

有感兴趣的朋友可以后台私信我交流,我给你提供开发文档,不过这个文档也是我让K2 自己写的,我一个字都没写,哈哈哈,大家有时间也可以自己试试让Kimi K2 复刻一下这个工具(注意全程都在 Claude code 中使用的)


国产模型继续攻城略地,Kimi k2 的Agent能力慢慢经受住了时间,市场和真实生产环境的检验,尤其是更新后的K2的两个版本kimi-k2-0905-Preview 版本和 kimi-k2-turbo-preview 版本均提供 256K 上下文窗口。kimi k2 高速版本,速度更是高达 60-100 Tokens/s,特别适合企业级和高响应智能体应用

关于使用Kimi K2 和价格

国际版看这里:

https://platform.moonshot.ai/docs/overview

国内版看这里:

https://platform.moonshot.cn/docs/overview

在 ClaudeCode/Cline/RooCode 中使用 kimi k2 模型,看这里:

https://platform.moonshot.cn/docs/guide/agent-support#%E4%BD%BF%E7%94%A8%E6%B3%A8%E6%84%8F%E4%BA%8B%E9%A1%B9


价格:


充值与限速:


以上,谢谢你看我的文章。觉得还不错的话,点个赞/在看/转发就更好了~想第一时间收到更新,记得给我加个⭐星标。~我们,下次再见

.../作者:花不玩

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新