当前位置: 首页 » 资讯 » 新科技 » 正文

天才实习生看过来:Kimi要用「期权时光机」截胡你的顶尖大脑

IP属地 中国·北京 机器之心Pro 时间:2026-04-04 12:09:31



编辑|Panda、陈陈

「21 世纪什么最贵?人才!」这句 20 多年前的电影台词,如今已在 AI 领域迎来了具象化。



这两天,一篇名为《「卧底」Kimi 的 100 小时》的《人物》特稿在科技圈刷屏。报道中提到,这家成立仅 3 年、估值超 1200 亿元人民币的创业公司里,平均年龄不到 30 岁的 300 多名员工,每人肩上扛着近 4 亿估值。这里没有部门墙,没有职级,没有 KPI,甚至 17 岁的高中实习生都能以第一作者身份发表让硅谷大佬盛赞的论文。很显然,Kimi 正在或者说已经构建了一个高密度的天才集群。

而就在今天,Kimi 又发布的一项名为「穿越计划」的招募动作,将这场天才争夺战的筹码推向了新高。



这项计划专门面向在校学生展开。核心规则非常直接:候选人在 2026 年入职实习时,公司即按照当期估值提前授予并锁定期权股数。这意味着,这些年轻的技术大脑在实验室阶段,就能提前拿到分享公司估值跃迁的门票,以高弹性的增长红利对抗传统的确定性现金流。

作为一家成立仅 3 年的初创 AI Native 企业,Kimi 在现今的超高速扩张期发布这样的人才招募计划,无疑向市场释放了一个清晰的信号:AI 时代的红利正直接向顶尖技术大脑倾斜,顶级人才完全能够跳出传统的职场攀爬路径,直接与顶级 VC 共享同一张跨越周期的价值门票。

Kimi 凭什么值得赌?

如果你正是一位 00 后乃至 05 后的 AI 技术人才,你可能会问:期权的价值,终究取决于公司能涨到哪里。Kimi,值得押注吗?我们先来看几个数字。

过去三年,Kimi 估值增长接近 4 倍,跨越 180 亿美元门槛,成为国内成长最快的 AI 公司。字节跳动当年跨越百亿美元估值用了 4 年多,拼多多用了 3 年多,Kimi 用了不到 3 年。

这不是简单的成长快,在这个互联网红利还在,市场空间相对清晰的背景下,Kimi 面对的是一个更不确定、竞争更激烈、技术迭代更快的 AI 时代。能在这样的环境里跑出这个速度,背后需要的不只是运气。更是对技术路径、产品节奏与资源调度的综合把控。

2023 年 10 月,公司成立不久,Kimi 便发布了支持 20 万上下文的模型,在当时刷新了全球大语言模型的上下文长度纪录。2024 年 3 月,Kimi 宣布支持高达 200 万字的超长无损上下文,标志着模型可以一次性处理数百万字的法律卷宗、医疗记录或大型代码库。

2025 年,Kimi 提出新的混合线性注意力架构 —— Kimi Linear,在业界引发广泛关注与讨论,被视为长上下文与高效推理方向上的关键技术突破。



Kimi Linear 架构示意图

随后,开源模型 Kimi K2 Thinking 发布,再次引爆社区讨论。该模型在多项核心能力上对标并超越 GPT-5、Claude Sonnet 4.5 等主流闭源模型,引发技术圈与开发者社区的密集关注。HuggingFace 联合创始人 Thomas Wolf 将其称为又一次 DeepSeek 时刻,这一评价迅速在业内传播,进一步放大了其影响力。

自今年以来,Kimi 明显进入加速期。1 月发布的 Kimi K2.5,在多模态能力上进一步扩展,首次具备视频理解能力,同时 Coding 能力也显著提升,并延续开源策略。

从长上下文,到架构创新,再到开源模型的持续迭代,一条清晰的路径正在浮现,Kimi 并不是在单点追求更强的模型,而是在系统性推进一套能够理解、推理并执行复杂任务的通用智能能力。

这也是 Kimi 的初衷,专注于通用人工智能(AGI)的研发

而当这条路径逐渐展开,其价值也不再只体现在技术指标上。对个体而言,它意味着两种稀缺条件的叠加:一是持续加码的资源与投入,为高强度试错提供空间;二是不断被重写的技术前沿,让关键问题仍然处于开放状态。

也正因此,对于那些选择进入其中的工程师来说,真正的问题早已不只是能获得多少回报,而是是否有机会站在这一轮智能跃迁的起点,参与塑造它的方向。

除了钱,还有探索前沿的机会和资源

成功入选「穿越计划」的天才,在拿到这把高昂的钥匙后,将要面对怎样的技术版图?

在近期的 GTC 2026 和中关村论坛上,Kimi 创始人杨植麟给出了清晰的解答。大模型研发的本质是将能源转化为智能,而新一代的 Builder 们,正致力于在核心维度上全方位突破智能的上限。

为了让模型胜任前所未有的复杂任务,Kimi 正在三个基础方向上进行硬核的探索。



杨植麟 GTC 2026 演讲截图

首先是Token 效率的极限压榨。在高质量训练数据总量有限的前提下,Kimi 团队引入了分布式 Muon 优化器与 QK 裁剪技术。这使得模型能够在相同参数和训练数据量下,获得近乎 2 倍的效率提升。

其次是上下文长度的革命。传统的全注意力机制面临着计算复杂度随长度平方增长的死结。通过引入改进的线性注意力机制 Kimi Linear 架构,他们成功让模型在处理高达 100 万 Token 的解码任务时依然保持极致的高效。

最后是极具潜力的智能体集群(Agent Swarms)。在训练这类能够自行分解任务、协同工作的复杂多智能体系统时,为了防止模型在执行复杂任务时退化为单智能体模式的「串行坍缩」或陷入「虚假并行」,Kimi 放弃了人工设计工作流的传统范式,转而通过大规模强化学习系统,引入实例化奖励、完成奖励和结果奖励三种层次的信号,让模型自主学会有效的并行化策略与任务编排。

除此以外,新人们还将直接参与到下一代深度信息传递机制的探索中。例如近期引起学术界轰动的「注意力残差」(Attention Residuals)架构,将原本在序列维度发挥作用的注意力机制做了一次 90 度的旋转,创造性地应用到了深度维度上。



Attention Residuals 概览:(a) 标准残差: 采用均匀加法累加的传统残差连接方式。(b) 全量注意力残差: 每一层都通过学习到的注意力权重,有选择地聚合之前所有层的输出。(c) 块注意力残差: 将各层划分为若干个「块」,将内存开销从 O (Ld) 降低至 O (Nd)。

在 Kimi,每一位探索者都能获得无限的 Token 资源。这里不存在流水线式的枯燥执行,所有人都是构建最前沿 AGI 模型的 Builder。这种充满未知与挑战的技术纵深,正是那些顶尖大脑梦寐以求的造物者游乐场。

极高的自由度与论文发布权,实习生也能拥有

除了丰富的回报和资源,加入 Kimi 的人才也能获得极高的研究自由与论文发布权。这一点从《Attention Residuals》那位 17 岁高中生一作陈广宇的故事便能看出。



据了解,陈广宇一年前才刚刚开始了解大模型,如今却在 Kimi 团队中,与知名算法大神苏剑林和张宇并列成为核心架构「注意力残差」论文的共同一作。这篇将注意力机制在深度维度进行重构的硬核论文,甚至引发了埃隆・马斯克等硅谷顶级圈层的关注与叹服。陈广宇从北京的黑客松起步,历经硅谷高强度实习,最终被 Kimi 在底层注意力机制上的开源探索所吸引而加入。在 Kimi,他跳过了传统大厂实习生的边缘打杂阶段,直接触碰最底层的核心代码与顶级算力资源,将纯粹的技术兴趣转化为重塑大模型架构的真实能力。

这个故事也能让我们看见 Kimi 与传统大厂的不同:在传统大型互联网企业的科层制结构中,年轻的技术天才往往容易沦为高薪流水线上的边缘齿轮。Kimi 则展现出了典型的AI Native公司特质。

这家拥有 300 多名员工、平均年龄不到 30 岁的团队,内部甚至没有设立传统的部门和职级。每个人都可以通过直接沟通来推动工作,形成了一个极致扁平、低熵运行的「天才集群」(Genius Swarm)

在这里,年轻的实习生拥有极高的研究自由度,能够直接触碰最前沿的核心决策,并在顶级学术界发声。

2026 年,顶尖研究员的绝对买方市场

随着 2026 年 AI 竞争向更深层次的智能上限突破推进,从 OpenClaw 等开源框架的繁荣到各类智能体集群的落地,顶尖技术建设者在行业内已经拥有了空前的话语权。



面对这种绝对的买方市场,像 Kimi 这样处于高倍速增长通道的 AI 独角兽,用提前锁定估值的方式向新一代天才发出了最硬核的邀请。这是一场人才争夺战,更是宣告了 AGI 时代的入场券已经不再为顶级资本所独享。

最顶尖的技术大脑,完全可以凭借自身的才华,在这个伟大的技术周期里,赢取穿越时代周期的丰厚回报。

申请方式及更多详情请访问 Kimi 官方公告:《和 Kimi 一起投身 AGI,穿越成长周期》。

文章链接:https://mp.weixin.qq.com/s?__biz=Mzk0NDU1MDkyNg==&mid=2247488323&idx=1&sn=0d38d4131b91b242301ef277a096d65c&scene=21&poc_token=HN6Pz2mjeLlEOT_k0cEFWtIQCFHs0lFmSO1VDH1u

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。