
现在的 AI 大模型,越来越像是一个许愿机了。
人类想要,人类得到。
不管是让 AI 写首小诗,还是让 AI 来帮我们点个外卖,还是直接做些游戏。。。
大模型能做到的事情越来越多。
甚至可以让它根据你的需求,直接帮我们定制一个独一无二的应用出来。
而今天,Kimi 开源的新模型 Kimi 2.5,再次把大模型干活的能力推到了一个全新的高度。
![]()
能帮你干活的不再只是单个的 AI agent 智能体,而是一群 Agents。
光看跑分测试就能发现,Kimi 这次更新的模型,完全就是冲着解决 “怎么让 AI 能更好地干活” 这个问题去的。整个评测指标的设计,也明显围绕着实际生产力展开。
不仅在 Agent 测试,也就是模型动手干活的能力测试里全面领先,而且同时在写代码、图片识别、视频理解这三个方面全面开花,作为一个开源模型,能和 GPT、Claude、Gemini 这些顶尖的闭源模型打个有来有回。
![]()
在大模型真刀实枪线上 PVP 的正面战场 LLMarena 里,Kimi 更是仅次于 Claude 和 Google 这俩老伙计。
![]()
而且在成本上还是个传奇省钱王,Kimi 在跑完分之后,还特意留意了一下,看看这次测试跑分花了多少钱。
结果发现,Kimi在跑分成绩和 GPT5.2 差不多的情况下,只花了 GPT 的二十分之一,甚至是五分之一的成本,这还要啥自行车了兄弟们。。。
模型性能与成本对比分析
![]()
当然,经常看大模型发布的差友们都知道,跑分仅供参考,实战才是王道。为了验验 Kimi K2.5的成色,世超也是在模型发布的第一时间帮大家来体验了一波。
先来个简单的任务试试水,让 Kimi 来帮我统计一下,B 站上的差评君,在过去一年里发了多少视频,这些视频的数据质量如何。
这个任务如果让人工来做的话难度也不高,无非是需要花点时间,去 B 站上把视频一个一个搜索,然后把结果一个一个的粘贴到 Excel 表格里。
![]()
结果在两轮对话后,Kimi 就通过写代码的方式,成功的把大家去年一年来的工作成功给收集了下来,在数据的准确程度上也没出啥岔子。
![]()
很稳啊,说真的,如果 Kimi 能早一个月发布的话,那世超就不用跨年夜熬夜扒数据,自己手动写报告了。。。
接下来,世超又测试了一下 Kimi 这回重点宣传的 Agent Swarm 能力,也就是让一群 Agent 来帮你一起干活。
毕竟单个 Agent 的能力是有极限的,就和我们人类需要分工合作一样,AI 在处理复杂任务的时候,为了避免干活干到一半报错,有时也需要在 AI 和 AI 之间展开合作.
Kimi 官方也在测试中发现:随着问题越来越复杂,让 AI 组团处理的效率就越好。
![]()
世超也简单试了一下这个 Agent 集群功能。最近国产 GPU 在大 A 市场不是很火么,那么这些公司到底发展的咋样?于是就准备让 Kimi 去尽可能详细地调研一下这行的发展情况。
结果没想到 Kimi 在收到了这个任务之后,直接原地给我开了家数据调研公司,拆分出了“市场格局分析师 —— 东坡”、“技术对比专家——李斯特”、“产业链研究员——小杨博士”,这一群 Agent 们。
![]()
然后再让这一堆 Agent 分头行动,从不同的视角收集不同的信息。
![]()
等它们都完成了工作后,最后再把这些不同维度的信息来一起做个整合,生成了一份最终的报告。

世超仔细看了一下这份报告,不仅讨论了市场规模、行业龙头、产品的硬实力指标,就连上下游产业线都给分析了一波。光看信息的思考维度和广度,确实比之前用 GPT 和 Gemini 的 Deep Research 做出来的要更全面,逻辑也更顺畅。
![]()
而代码能力就更不用多说了,编程一直是 Kimi 的强项,世超随便截了个 B 站的主页丢给它,结果 Kimi 就自己跑回去哼哧哼哧的写代码画图来做了个七七八八。
![]()
![]()
世超还看到有朋友给咱们分享了一个他拿 Kimi 做出来的 demo。
这哥们为了让自己上班摸鱼的时候能有点背景音乐,用 Kimi K2.5 搓了个能收听全球 33 个电台的网站。
写出来的代码审美也很不错,脱离了 AI 生成代码时常见的神秘渐变蓝紫色模版,不管是太空中缓缓转动的地球,还是角落的像素风播放器都非常解压。

最后,我们来点更刺激的测试。到了 2026 年,单纯的出题目,测试大模型的代码能力已经不稀奇了。
于是世超决定同步来测试一下 Kimi K2.5 的多模态能力和代码能力。
不知道差友们有没有过这种经历:在刷短视频的时候,总能刷到那种看起来特别解压、逻辑甚至有点“弱智”的广告小游戏。

但是当你真的点进去的时候,就发现刚才那个解压小游戏直接不见了。
实际玩的游戏和大家刚才刷到的短视频不能说是风马牛不相及吧,只能说是八竿子打不着了。
又上当了。
为了弥补这种被欺骗的遗憾,世超这次决定让 Kimi 直接把广告里的游戏给“抠”出来。
自己动手,丰衣足食。
当然,为了给 Kimi 上点强度,我决定不像往常一样,写个大几千字的提示词来描述这个小游戏应该怎么玩。
反而是直接丢了一个广告小游戏的视频给它,让Kimi 想办法看视频,自己来生成能生成这个游戏的提示词出来。
Kimi 的反应也很快,马上把视频给截出来一帧一帧的看,然后拆分出了三个专家来理解这个游戏视频,给出了一套提示词。
![]()
接下来,我再让 Kimi 根据这个提示词来直接生成游戏。
![]()
看着这五个 Agent 员工哼哧哼哧工作几分钟后,世超就收获了第一版的复制小游戏。

说实话,这版小游戏的 bug 还是蛮明显的。跑到一半就消失了的跑道,还有打 Boss 时毫无交互的反馈。。。
还只能支持触碰操作,甚至你仔细看上面这个 GIF 的话,你会发现鼠标滑动的方向,和小人运动的方向实际上是相反的。
第一次尝试的结果只能说是能跑,但是跑得不够完美。
但是好在咱们可以通过和 Agent 的对话来快速的修复这些问题,而且 Kimi 还有个很有趣的设计,大家如果平时喜欢用 AI 写代码的话肯定会非常有感觉。
众所周知,想让 AI 修改画面里的特定元素的话,其实是个非常麻烦的事情,你需要准确的描述你要改的元素在哪里,叫什么,长什么样,不然 AI 可能就会听不懂你在说什么,开始随地大小改,乱改一通。
而 Kimi 为了让大伙能更快的告诉 AI 应该改哪里,直接在它的预览界面增加了一个截图的编辑系统,你可以直接把画面上想改的东西给圈圈画画,然后把这些截图丢给 Kimi 让它来把 Bug 给修改。
![]()
虽然 Kimi 最终能修复这些 Bug,靠的还是自己的图像识别多模态能力,但是对用户来说,用平台自带的截图功能显然会更加方便,修改起来也会更加得心应手。
在要求了 Kimi 修复了小人运动方向、延长了游戏的跑道之后,这个游戏就变成了这样:

游戏的核心玩法基本被复刻得明明白白,和最开始的视频相比,差距最大的地方可能就是体现在了美术素材的区别上了。
看着屏幕上那个被我不到半小时就“调教”得服服帖帖的小人儿,世超心里确实有种莫名的成就感。
说实话,从丢过去一段几十秒的视频,到最终拿到一个逻辑通顺、手感丝滑的小游戏,整个过程我几乎没怎么动脑子去想代码逻辑,更多的是在扮演一个“监工”的角色:发现问题,截图圈出来,然后看着AI把活儿干完。
总而言之,从信息收集到代码编程,从 Office 办公到多 Agent 协同。这次 Kimi 的 K2.5 在解决复杂任务上的表现相当硬核。更关键的是,它的使用门槛极低,不仅仅是说上手容易,更是指它的价格便宜。
而且还开源,这种极致的性价比,意味着我们可以毫无顾忌地把繁琐的工作丢给 AI,而不用担心 AI 干活干到一半,就直接把我们的钱包给刷爆了。
这让世超想起杨德昌导演在电影《一一》里那句经典的台词:
“电影发明以后,人类的生命,比起以前延长了至少三倍。”
![]()
有了电影,我们就能在短短两个小时里,体验到别人完整的一生。
而现在,大模型也在做类似的事情。
它不是字面意义上地让你活得更久,而是让你在有限的时间里,拥有了三倍、甚至十倍的产出能力。
我们可以把复杂的 Office 操作、枯燥的数据收集、掉头发的代码撰写,都丢给大模型,让自己直接享受结果,或者去思考更有创造力的事情。
以前因为怕麻烦、怕花钱而不敢尝试的想法,现在都可以丢给这一群 AI Agent 去试一试。
人类以后只需要学会怎么动嘴就行,剩下的“脏活累活”,就放心交给这个AI项目组吧。
撰文: 早起
编辑: 江江 && 面线
美编: 素描
图片、资料来源:Kimi 官网
![]()
![]()
![]()





京公网安备 11011402013531号