当前位置：首页 » 资讯 » 新科技 » 正文

Andrej Karpathy 年度总结：Nano Banana最为震撼，指向下一代 AI GUI 的雏形

IP属地中国·北京 AI寒武纪 时间：2025-12-20 10:14:09

↑阅读之前记得关注+星标⭐️，，每天才能第一时间接收到更新
AK的年终总结来了，这是不可错过的好文，全文分享给大家

2025 年是大型语言模型（LLM）领域蓬勃发展、大事频发的一年。以下是我个人认为最值得关注且略感意外的“范式转变”清单——这些变化改变了行业格局，并在理念上让我深受触动
1. 基于可验证奖励的强化学习（RLVR）
在 2025 年初，各大实验室的 LLM 生产流程大体如下：
预训练（Pretraining，约 2020 年的 GPT-2/3）
指令微调（Supervised Finetuning，约 2022 年的 InstructGPT）
基于人类反馈的强化学习（RLHF，约 2022 年）
长期以来，这一直是训练生产级 LLM 的成熟稳定配方。而到了 2025 年，基于可验证奖励的强化学习（RLVR） 成了这一组合中事实上的新成员。通过针对一系列可自动验证奖励的环境（例如数学题或代码谜题）进行训练，LLM 会自发地演化出在人类看来类似于“推理”的策略——它们学会了将问题拆解为中间计算步骤，并学会了多种来回尝试、推导解决问题的策略（参见 DeepSeek R1 论文中的示例）。在之前的范式中，这些策略很难实现，因为人类并不清楚 LLM 最优的推理路径和纠错过程应该是怎样的——模型必须通过针对奖励的优化，自己找到行之有效的方法。
与 SFT 和 RLHF 这类计算量较小的“轻量级”微调阶段不同，RLVR 针对的是客观（不可作弊）的奖励函数，这使得进行更长周期的优化成为可能。事实证明，运行 RLVR 具有极高的“能力/成本比”，它吞噬了原本计划用于预训练的算力。因此，2025 年的大部分能力提升，都源于各大实验室在消化这一新阶段带来的“算力积压”，总体上我们看到的模型参数规模变动不大，但 RL 运行的时间要长得多。同样，这一新阶段还带了一个全新的调节旋钮（以及相关的缩放定律）：我们可以通过生成更长的推理路径、增加“思考时间”，来控制模型在推理时的能力表现。OpenAI 的 o1（2024 年底）是 RLVR 模型的首次展示，但 o3 的发布（2025 年初）才是明显的拐点，让你能直观感受到这种差异。
2. 幽灵 vs. 动物 / 锯齿状智能
2025 年，我（以及我认为整个行业也是如此）开始从直觉上内化 LLM 智能的“形态”。我们并不是在“进化或培养动物”，而是在“召唤幽灵”。LLM 技术栈的一切（神经架构、训练数据、训练算法，尤其是优化压力）都完全不同，因此产生出完全不同于生物智能的实体也就不足为奇了，用观察动物的视角来看待它们是不恰当的。
从监督信息的比特位来看，人类神经网络是为了在丛林部落中生存而优化的；而 LLM 神经网络是为了模仿人类文本、在数学题中获取奖励、以及在 LM Arena 榜单上获得人类点赞而优化的。随着可验证领域的出现，RLVR 使得 LLM 在这些领域附近的能力出现“激增”，整体表现出一种有趣的**“锯齿状”性能特征**：它们既是博学的天才，又像是个思维混乱、有认知障碍的小学生，前一秒还在解难题，后一秒就可能被简单的提示词破解（Jailbreak）从而泄露你的数据。

与此相关的是，我在 2025 年对各种基准测试（Benchmarks）产生了普遍的审美疲劳和信任危机。核心问题在于，基准测试从定义上几乎就是“可验证环境”，因此极易受到 RLVR 或更弱形式的合成数据生成的攻击。在典型的“刷榜（benchmaxxing）”过程中，实验室团队不可避免地在测试集周围构建环境，长出“锯齿”来覆盖这些区域。“面向测试集训练”已经成了一种新的艺术形式。
如果一个模型刷爆了所有榜单，却依然没能实现通用人工智能（AGI），那会是怎样的景象？
3. Cursor / 新一代 LLM 应用层
关于 Cursor，最令我触目的（除了它今年的彗星般崛起）是它令人信服地揭示了“LLM 应用”的新层级——人们开始讨论各行各业的“Cursor 版”。正如我在今年的 Y Combinator 演讲中所强调的，像 Cursor 这样的 LLM 应用为特定垂直领域封装并编排了 LLM 调用：
它们处理“上下文工程”
它们在底层编排多个 LLM 调用，将其串联成日益复杂的有向无环图（DAG），精细平衡性能和成本
它们为人类参与提供特定应用的图形界面（GUI）。
它们提供了一个“自主程度调节滑块”
2025 年有很多关于这个新应用层究竟会有多“厚”的讨论。LLM 实验室会通吃所有应用，还是会给垂直应用留下肥沃的草原？我个人怀疑，LLM 实验室倾向于培养出能力全面的“大学生”，而 LLM 应用则会通过提供私有数据、传感器、执行器和反馈闭环，来组织、微调并真正驱动这些“大学生”团队，使之成为特定领域的专业从业者。
4. Claude Code / 住在你电脑里的 AI
Claude Code (CC) 的出现，是 LLM 智能体（Agent）的第一次令人信服的展示——它能以循环往复的方式串联工具调用和推理，进行长时间的问题解决。此外，CC 令我关注的一点是，它运行在你的电脑上，使用你的私有环境、数据和上下文。我认为 OpenAI 在这方面走偏了，因为他们把 Codex/智能体的重心放在了云端容器，通过 ChatGPT 编排，而不是放在 localhost（本地）。虽然云端运行的智能体集群感觉像是“AGI 的终局”，但我们生活在一个能力参差不齐、技术缓慢起步的过渡世界，直接在电脑上运行智能体，与开发者及其具体配置手拉手工作，反而更有意义。CC 抓住了这个优先顺序，并将其打包成一个精美、极简、令人信服的命令行（CLI）形态，改变了 AI 的样貌——它不再是一个像 Google 那样你主动访问的网站，而是一个“住”在你电脑里的灵体/幽灵。这是一种全新的、独特的 AI 交互范式
5. Vibe coding
2025 年，AI 跨越了一个能力阈值，使得人们仅凭英语就能构建各种令人惊叹的程序，甚至完全忘记了代码的存在。有趣的是，“Vibe coding”这个词是我在一条淋浴时的胡思乱想推文里偶然创造的，完全没料到它会流传这么广。
有了Vibe coding，编程不再是受过高度训练的专业人士的专利，而是任何人都能做的事。在这方面，它再次印证了我之前在《权力归于人民》中所写的：LLM 如何反转了技术扩散的脚本——与以往所有技术不同，普通人从 LLM 中获益远多于专业人士、企业和政府。不仅普通人能尝试编程，受过训练的专业人士也能写出更多（氛围编码产生的）原本根本不会去写的软件。在开发 nanochat 时，我用 Rust 氛围编码了我自己的高效 BPE 分词器，而不需要去寻找现有库或在那个深度学习 Rust。今年我氛围编码了许多项目，作为我想要存在的东西的快速 Demo。我甚至为了找一个 Bug 氛围编码了整个临时应用——因为代码突然变得免费、瞬时、可塑，用完即弃。氛围编码将重塑软件生态，并改变职业定义。
6. Nano Banana / LLM 图形界面
Google Gemini Nano Banana 是 2025 年最令人震撼、最具范式转移意义的模型之一。在我的世界观里，LLM 是继 1970、80 年代计算机之后的下一次重大计算范式。因此，我们将看到基于类似逻辑的类似创新：我们将看到个人计算的等价物、微控制器的等价物（认知核心）、互联网的等价物（智能体网络）等等。
特别是在 UI/UX 方面，与 LLM 对话有点像在 80 年代向电脑控制台输入命令。文本是计算机（和 LLM）偏好的原始数据表示，但它并不是人类偏好的格式，尤其是在输入端。人类其实不喜欢读长篇大论——这很慢且费劲。相反，人类喜欢以视觉和空间方式消耗信息，这就是传统计算中 GUI 被发明的原因。同理，LLM 也应该以我们偏好的格式与我们交流——通过图像、信息图、幻灯片、白板、动画/视频、网页应用等。
这种模式的早期和现状当然是 Emoji 和 Markdown，它们是装饰和排版文本的方式。但谁来真正构建“LLM GUI”呢？在这种视角下，Nano Banana 是这种可能性的早期雏形。重要的是，它的显著特征不仅在于图像生成本身，而在于由文本生成、图像生成和世界知识在模型权重中交织而成的联合能力。
简而言之： 2025 年是 LLM 领域激动人心且略带意外的一年。LLM 正在演变成一种新型智能，它比我预期的要聪明得多，同时也比我预期的要笨得多。无论如何，它们都极其有用，我认为即便以目前的能力，整个行业实现出的潜力还不到 10%。与此同时，还有太多的想法值得尝试，从概念上讲，这个领域依然大有可为。正如我今年早些时候在 Dwarkesh 的播客中所说：我同时相信（表面上看似矛盾）我们会看到持续且飞速的进展，但依然有大量艰苦的工作等待完成。
坐稳了，好戏才刚开始。
source：
https://x.com/karpathy/status/2002118205729562949
--end--
最后记得⭐️我，每天都在更新：欢迎点赞转发推荐评论，别忘了关注我

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

马斯克：最便宜的AI算力在太空，每年至少发射1万次，人形机器人就是“印钞机”

马斯克为何将火箭公司与AI初创公司合并？

字节Seedance 2.0刷屏后，紧急禁用真人素材，该视频博主们慌了？

百度SEO人工打分？想通高质量，提升排名

Omdia报告：中国具身智能AI云市场百度智能云市占率35%居首

泡泡玛特：2025年全IP全品类产品全球销售超4亿只

全站最新

马斯克：最便宜的AI算力在太空，每年至少发射1万次，人形机器人就是“印钞机”

马斯克为何将火箭公司与AI初创公司合并？

字节Seedance 2.0刷屏后，紧急禁用真人素材，该视频博主们慌了？

百度SEO人工打分？想通高质量，提升排名

热门推荐

马斯克：最便宜的AI算力在太空，每年至少发射1万次，人形机器人就是“印钞机”

马斯克为何将火箭公司与AI初创公司合并？

字节Seedance 2.0刷屏后，紧急禁用真人素材，该视频博主们慌了？

百度SEO人工打分？想通高质量，提升排名

Omdia报告：中国具身智能AI云市场百度智能云市占率35%居首

泡泡玛特：2025年全IP全品类产品全球销售超4亿只

红魔11 Pro+鸣潮限定版开售售价6999元

OpenAI即将完成千亿美元融资，ChatGPT 月增速重回巅峰！

Anthropic 估值飙升至3500亿美元，领跑大模型竞赛

豪掷千亿加码基建！Alphabet 拟发债 200 亿美元深度布局 AI 数据中心

荣耀Magic8 Pro Air宣布官方降价300元售价4699元起

《黑神话：悟空》制作人冯骥点赞字节Seedance 2.0：影视制作逻辑将被彻底颠覆！

AI基础设施变天了！质变科技发布首个多模态记忆湖MemoryLake：模型不再“健忘”，决策更有底气

字节快手巅峰对决:Seedance2.0携“导演级”控制入局，相关股价应声大涨20%

雷军回应小米汽车进军美国：暂无计划

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

Andrej Karpathy 年度总结：Nano Banana最为震撼，指向下一代 AI GUI 的雏形

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

Andrej Karpathy 年度总结：Nano Banana最为震撼， 指向下一代 AI GUI 的雏形

同类资讯

Andrej Karpathy 年度总结：Nano Banana最为震撼，指向下一代 AI GUI 的雏形