当前位置: 首页 » 资讯 » 新科技 » 正文

从选题到论文一键生成:最新论文虾把autoresearch往前推了十步

IP属地 中国·北京 DeepTech深科技 时间:2026-03-18 18:20:38

一周前,当 Andrej Karpathy 在 X 平台上发布他的新项目 autoresearch 时,整个 AI 社区被迅速吸引。因为这个项目只用了大约 630 行 Python 代码,就实现了让 AI 自主开展研究的机制。


(Karpathy)

截止目前,上线不到两周,项目的星标数已超过 4 万。有人在自家 H100 GPU 上运行了 83 次实验,保留了 15 次有效改进,验证损失从接近 1,000 稳步下降到 0.975 附近。

autoresearch 的核心在于给 AI 智能体提供一个真实的、简化的 LLM 训练环境,让它彻夜迭代。仓库主要由三个文件构成:prepare.py 固定负责数据准备和 BPE 分词器训练;train.py 是可编辑的核心脚本,包含 GPT 模型、优化器和训练循环;program.md 则作为人类编写的指令手册,指导 AI 的行为。

每次实验严格限定 5 分钟墙钟时间,评估指标用 val_bpb,确保不同改动间公平比较。智能体修改代码、运行训练、检查结果、决定保留或回滚,整个过程在 git 分支上记录,形成完整的演化历史。这延续了 Karpathy 一贯的极简风格,从 micrograd 到 nanoGPT,再到 nanochat,他总是在把复杂系统压缩到最小可运行规模,只是 autoresearch 这一次把主角换成了 AI。

但开发者们没有止步于此。就在 autoresearch 发布后不到两周,一支来自美国北卡罗来纳大学教堂山分校(UNC)AIMING Lab 的华人团队,将这个自主实验循环的概念大幅扩展,开源了 AutoResearchClaw。

这个项目本质上是一个端到端的自主科研 Agent,能从用户输入的一个原始研究想法开始,自动完成从文献检索到论文撰写的完整流程。目前仓库星标已超过 4,500,版本从 v0.1 快速迭代到 v0.3.0(最新于 3 月 17 日发布),并引入了自进化机制。


(GitHub)

与 autoresearch 主要聚焦 LLM 训练代码的超参优化和模型改进不同,AutoResearchClaw 把输入端直接拉到“一个原始研究想法”。用户只需在命令行输入一行 CLI 命令,附上 idea,比如“探索新型注意力机制在长上下文建模中的效率”,系统就会启动一个 23 阶段的端到端流水线,覆盖 8 个主要阶段:从 idea scoping、文献发现、合成,到实验设计、执行、分析、写作和最终定稿。

首先,系统会处理文献部分。它通过 arXiv 和 Semantic Scholar 检索真实论文,然后用 DataCite 和 CrossRef 进行交叉验证。每条引用都要经过四层过滤:arXiv ID 校验、DOI 查找、标题匹配以及 LLM 相关性打分,任何幻觉引用都会被自动剔除。这一步的严谨程度,已经超过了不少人工文献综述。

进入实验阶段后,AI 根据前期文献生成可运行代码。它会自动检测用户硬件(例如是 NVIDIA CUDA、Apple MPS 还是纯 CPU),并适配沙箱环境。代码出错时,系统自我修复,无需人工介入;如果实验结果不支持初始假设,它会主动转向新方向,而不是执着于一条路径。这个过程继承了 autoresearch 的紧反馈循环,但范围大大扩展:不再局限于调参,而是真正设计对比实验、生成图表、记录各项指标。

实验完成后,多智能体评审机制接管,几轮“同行评议”检查方法论与证据的一致性,并输出修订建议。最后,系统生成一篇 5,000 词以上的完整论文草稿,包括引言、相关工作、方法、实验、结论等标准章节。

数学公式用 KaTeX 渲染,对比图表自动绘制,直接套用 ICML、ICLR 或 NeurlPS 的 LaTeX 模板。用户最终拿到的是可直接编译的 .tex 文件、验证过的 BibTeX 引用列表、全部实验脚本、沙箱运行结果以及同行评审笔记。如果选择全程无人值守,只需加上 --auto-approve 参数;如果更谨慎,也可以设置三个审批关卡(对应阶段 5、9、20),逐步人工介入。


(GitHub)

AutoResearchClaw 的团队主要来自 AIMING Lab,核心贡献者包括 Huaxiu Yao 等研究者。他们明确表示,项目站在两个重要基础之上:一是 Karpathy 的 autoresearch,提供了代码自主迭代的微循环;二是 OpenClaw 框架,提供了多 Agent 编排的底层支持。

v0.2 版本引入 metaClaw 自进化引擎,从失败案例中提取教训,转化为可复用技能,注入后续运行,实测减少 40% 的 refine 周期;v0.3 则进一步强化速率限制防护、多 API 级联搜索(从 OpenAlex 到 Semantic Scholar 再到 arXiv),以及多 Agent 辩论模块。这些更新都在 GitHub 上公开,issue 区非常活跃,用户反馈直接推动下一版迭代。

从实际案例来看,这个项目的工程鲁棒性超出预期。一位早期测试者输入“Unity 资产剪枝优化”作为 idea,系统自动完成文献搜集、代码生成、实验验证,最后输出一篇会议级论文,连图表都完整配齐。

另一个例子中,智能体在实验失败后主动调整假设,避免了 p-hacking 式的偏差。这与早期 AI 论文生成工具的根本区别在于:它不是简单文本拼接,而是将 autoresearch 的“实验自我迭代”真正扩展到科研全链条,从选题到投稿准备,一气呵成。

项目也注重开放性和可审查性。所有输出包括完整实验脚本和结果日志,便于人类复核;引用列表全部可追溯;代码沙箱默认隔离,降低潜在风险。目前还不支持所有边缘硬件,但团队已表示社区 fork 和适配工作正在推进。仓库 README 反复强调,这套工具的目标不是取代研究员,而是把“从灵感和 arXiv 投稿”的周期从几个月压缩到一个晚上。

今天,AutoResearchClaw 仍在快速迭代。最新 release 优化了多 Agent 辩论和 LaTeX 导出,用户反馈显示,配合 Claude Code 这类编码智能体,整体成功率已超过 85%。

1.开发者主页:https://x.com/HuaxiuYaoML/status/2033038170653405308/photo/1

2.项目地址:https://github.com/aiming-lab/AutoResearchClaw

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。