当前位置：首页 » 资讯 » 新科技 » 正文

Karpathy开源“AI研究员”，630行代码让智能体通宵炼模型

IP属地中国·北京 DeepTech深科技 时间：2026-03-08 20:13:30

如果你有一块 NVIDIA GPU，睡前启动一个脚本，第二天早上醒来就能收获一百次 LLM 训练实验的结果，其中一部分还确实比你手动调参调得更好，是不是听起来有些难以置信？
但这就是 Andrej Karpathy 今天凌晨开源的新项目 autoresearch 所做的事。项目上线不到几个小时，他在 X（原 Twitter）上的发布帖浏览量突破百万，GitHub 仓库迅速收获超过 2,500 颗星。整个仓库的核心代码只有约 630 行 Python。

图丨相关推文（X）
autoresearch 做的事情，一句话就能说清：把一个简化过的大语言模型训练环境交给 AI 智能体（AI Agent），让它在你睡觉的时候自主跑实验。智能体修改代码，启动训练，五分钟后检查结果，如果验证损失降低了就保留改动，没降低就回退，然后继续下一轮。你早上醒来，面前是一串实验日志，和一个可能变好了的模型。
过去几年里，Karpathy 开源了一系列以极简主义著称的项目：2020 年的 micrograd 和 minGPT，2023 年的 nanoGPT，2024 年用纯 C 和 CUDA 写的 llm.c，2025 年覆盖 LLM 全流程的 nanochat，以及 2026 年 2 月那个仅用 243 行纯 Python、零外部依赖实现 GPT 训练和推理的 microgpt。每一次迭代都在做同一件事，剥除抽象层，把复杂系统压缩到人类可以在一杯咖啡时间里读完的代码量。
autoresearch 延续了这条线索，只是这一次，它不再是给人看的教学工具，而是给 AI 用的实验平台。
整个仓库只有三个核心文件。prepare.py 负责下载训练数据和训练一个 BPE（Byte Pair Encoding，字节对编码）分词器，这个文件是固定的，智能体不能动。
train.py 是约 630 行的训练脚本，包含完整的 GPT 模型定义、优化器（项目使用了 Muon 和 AdamW 的组合）和训练循环，这是智能体唯一可以编辑的文件，模型架构、超参数、批大小、学习率，所有东西都可以改。
program.md 是一个 Markdown 文件，充当给智能体的指令手册，由人类编写和迭代。这里的核心设计哲学是：人类编写指导智能体行为的"元程序"，智能体负责编写和修改实际的训练代码。
训练的时间预算被硬性固定为 5 分钟墙钟时间（wall clock time），不管你的硬件配置如何。这个设计选择有两个好处：
第一，不同实验之间的结果可以直接比较，不管智能体把模型改大了还是改小了；第二，autoresearch 会为你的特定硬件找到 5 分钟内能达到的最优配置。代价是不同人在不同 GPU 上得到的结果无法互相对照。评估指标是 val_bpb（validation bits per byte，验证集上的每字节比特数），越低越好，且与词表大小无关，这样即便智能体改变了分词方案，实验结果也能公平对比。

（GitHub）
按照这个节奏，每小时可以跑大约 12 个实验，一整夜大约 100 个实验。Karpathy 在 README 里附了一张图：83 次实验中保留了 15 次改进，验证损失从接近 1.000 逐步下降到 0.975 附近。图上每个点是一次完整的训练运行，绿色点表示被采纳的改动，灰色点是被丢弃的。
你可以看到智能体尝试了各种各样的策略，调整 batch 大小、修改学习率调度、切换激活函数、引入余弦衰减等，有些管用，大多数没用，但整体趋势是持续向下的。
autoresearch 的训练代码来源于 Karpathy 在 2025 年发布的 nanochat 项目的简化版。nanochat 是一个覆盖 LLM 全栈的实验框架，从分词到预训练、微调、评估、推理到聊天界面全部包含在内，设计目标是在 8 块 H100 GPU 组成的单节点上跑完全流程。
据 Karpathy 公布的数据，用 nanochat 训练一个 GPT-2 级别能力的模型大约需要花费 48 美元（约 2 小时的 8×H100 节点），而 2019 年 GPT-2 的训练成本约为 43,000 美元（nanochat GitHub，2025）。autoresearch 把 nanochat 进一步精简到单 GPU 环境，砍掉了分布式训练、复杂配置和多阶段流水线，只留下一个能跑、能改、能比较的最小单元。
智能体在一个 git 分支上工作。每当它找到一个更好的配置，就提交一个 commit。你可以在 git log 里看到完整的实验演化史。这种设计让所有改动都是可审查和可回滚的，同时也构成了一份天然的研究日志。Karpathy 建议使用 Claude Code 或 OpenAI Codex 这类代码智能体来驱动实验循环，并且把所有权限关掉，智能体只需要读写 train.py 和执行训练命令的能力。
不过，这个项目目前只支持 NVIDIA GPU，测试环境是 H100。Karpathy 在 README 中坦承：支持 CPU、MPS（Apple Silicon）或其他平台在技术上完全可行，但会让代码膨胀，而他不确定自己是否愿意在这个方向上投入精力。他更倾向于让社区来做 fork 和适配。
其实 AI 科研系统也并不算新鲜，但 autoresearch 和那些企业级或科研级系统之间有一个重要的区别：它是刻意做小的。Karpathy 没有搭建一个多智能体编排框架，没有设计复杂的通信协议，没有引入什么记忆模块或检索增强生成（Retrieval-Augmented Generation, RAG）管线。他做的事情和过去六年做的事情一样，把一个概念压缩到你能在周末下午读完并跑起来的规模。一块 GPU，一个文件，一个循环。
README 顶部有一段虚构的引言，大意是：将来 AI 研究完全由自主智能体集群在天空中的计算集群上完成，代码库已经经历了 10,205 次迭代，变成了一个超越人类理解的自修改二进制程序，没有人能验证智能体对版本号的说法是否正确。Karpathy 标注的日期是 2026 年 3 月，然后附言：这个项目讲的是这一切是如何开始的。
参考资料：
1. https://x.com/karpathy/status/2030371219518931079
2. https://github.com/karpathy/autoresearch

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Qwen人事震荡：阿里最年轻P10离场，高层紧急接管，AI核心战役升级

腾讯HY- WU要捅模型天花板：让模型每次任务都生成个新大脑

林俊旸可别拿阿里的钱

周志华院士：建议纠正盲目跟风“大模型解决一切”的误区

微软推出Copilot Cowork智能体与E7套件

一只“龙虾”搅动江湖：国产大模型厂商“吃撑”，大厂急了

全站最新

Qwen人事震荡：阿里最年轻P10离场，高层紧急接管，AI核心战役升级

腾讯HY- WU要捅模型天花板：让模型每次任务都生成个新大脑

林俊旸可别拿阿里的钱

周志华院士：建议纠正盲目跟风“大模型解决一切”的误区

热门推荐

不只有平价入门MacBook Neo！苹果将推出更多Neo产品

Qwen人事震荡：阿里最年轻P10离场，高层紧急接管，AI核心战役升级

腾讯HY- WU要捅模型天花板：让模型每次任务都生成个新大脑

林俊旸可别拿阿里的钱

周志华院士：建议纠正盲目跟风“大模型解决一切”的误区

微软推出Copilot Cowork智能体与E7套件

一只“龙虾”搅动江湖：国产大模型厂商“吃撑”，大厂急了

“龙虾”生意经：有人卖铲，有人卖艺，有人做保镖

笑不活了！近800只龙虾，办了个AI吐槽大会

朱啸虎盯上“养龙虾”：AI时代的操作系统来了

NASA证实：这一撞小行星还有更大收获

两会现场速递｜奔赴月球南极！2026年我国将发射嫦娥七号探测器

亿航智能与土耳其电信、Argela签署战略合作协议

新能源汽车中概股集体走高小鹏汽车涨超8%

深圳龙岗将联合Kimi举办“千人龙虾大会”，免费安装OpenClaw