当前位置: 首页 » 资讯 » 新科技 » 正文

Karpathy开源第二大脑方案,有望替代向量数据库,让AI永不失忆

IP属地 中国·北京 DeepTech深科技 时间:2026-04-06 03:55:42

你以为 AI 在学习,实际上,每次对话它都在重学一遍。

你或许也有这样的体验:在 NotebookLM、ChatGPT 上传一系列文件,LLM 处理并生成答案。但每次 LLM 都要“从 0 开始”挖掘知识,尤其是当达到使用上限或结束会话时,就像给项目做了一次“记忆清空”。

其本质仍然是检索增强生成(RAG)。为了让它记住建立的架构细节,只能用更多的 token 和时间来重建 AI 的上下文。

现在,OpenAI 创始成员之一、特斯拉前 AI 总监 Andrej Karpathy 通过构建一个持久的、由 LLM 维护的项目记录,提出了一套全新的知识库方案 LLM Wiki。

该方案比典型的企业级解决方案(向量数据库和 RAG 管道)更简单,也更优雅,能够复制粘贴到个人 Agent 中(例如 OpenAI Codex、Claude Code、OpenCode/Pi 等)。在这个系统中,LLM 本身充当的角色是全职“知识库管理员”:积极编译、检查和链接类 Markdown(.md)维基百科式文档。


(https://gist.github.com/karpathy/442a6bf555914893e9)

Karpathy 将大量 token 预算用于结构化知识构建,而非重复生成样板代码,从而为“第二大脑”的下一阶段绘制蓝图:一个能够自我修复、可审计且完全人类可读的知识体系。

Karpathy 指出,“该方法在约 100 篇文章、40 万字规模下的效率显著优于传统 RAG,且完全人类可读、可审计,基本摆脱了供应商锁定。”

尽管 Karpathy 称这套方案现在还处于靠“一堆蹩脚脚本”实现的阶段,但已有企业家嗅到了商机,有企业家称:谁能把这个功能打包成普通用户都能用的东西,谁就把握了巨大商机。一款应用即可与你常用工具、书签、阅读应用、播客应用及社交媒体优质讨论内容同步。


(https://x.com/karpathy/status/2039805659525644595)

在 LLM Wiki 方案中,LLM 并非仅仅在查询时从原始文档中检索信息,而是逐步构建并维护一个持久化的维基:一个结构化的、相互链接的 Markdown 文件集合,它位于用户和原始数据源之间。

当用户添加新的数据源时,LLM 不仅会为其进行索引以便后续检索,还会读取、提取关键信息,并将其整合到现有的 Wiki 中更新页面,修订主题摘要,指出新数据与旧说法相矛盾之处,从而不断修正或强化已有知识体系。知识被编译后可持续复用,无需在每次查询时重新推导。

关键在于,LLM Wiki 是一个持续更新、不断完善的资源。交叉引用已然建立,矛盾之处已被标记,综合信息则反映了用户阅读过的所有内容。你添加的每个来源、提出的每个问题都会让 LLM Wiki 的内容更加丰富。

这样做的好处是,用户几乎从不(或很少)亲自编写 Wiki,所有内容都由 LLM(知识库管理员)编写和维护,其一次可处理约 15 个文件。你只需要寻找资料、主动探索和提出正确的问题;而 LLM 则负责所有繁琐的工作:总结、交叉引用、归档和信息整理,这些工作使知识库能够长期发挥作用。

Karpathy 称,他一边打开 Agent,一边打开 Obsidian。LLM 会根据他们的对话进行编辑,用户能够实时浏览结果,包括点击链接、查看图表视图、阅读更新后的页面。在这种情景下,Obsidian 是集成开发环境(IDE);LLM 是程序员;维基则是代码库。

综合来看,系统架构分三个不同的阶段运行。

数据导入:原始资料,例如研究论文、GitHub 代码库、数据集和网络文章被导入到 raw/ 目录中。为了将网页文章转换为 .md 文件,Karpathy 使用了 Obsidian Web Clipper 扩展,他还设置了一个快捷键,将所有相关的图片下载到本地,以便 LLM 可通过视觉功能引用它们。

编译步骤:这是架构中的核心创新点。LLM 不仅仅是对文件进行索引,而是对文件进行“编译”。它读取原始数据并生成结构化的维基百科页面,包括生成摘要、识别关键概念、撰写百科全书式条目,以及在相关概念之间创建“反向链接”。

主动维护(代码校对):该系统并非一成不变。Karpathy 描述了运行“健康检查”或“代码校对”的过程,LLM 会扫描 Wiki 以查找不一致之处、缺失数据或新连接。这相当于一个更动态的、能够“自我修复”的知识库。


(https://x.com/himanshustwts/status/2039811786602607)

LLM Wiki 的应用场景广泛,竞争分析、尽职调查、旅行计划、课程笔记、兴趣爱好深度研究……任何需要持续积累知识,并且希望有序整理的场景都可以用到它。

个人成长:追踪个人目标、健康、心理、自我提升,可记录日记、文章、播客笔记,并随着时间的推移构建一个结构化的自我形象。

深度研究:对某个主题进行为期数周或数月的深入研究,例如阅读论文、文章、报告,并逐步构建一个包含不断发展的论点的综合维基。

读书笔记:边读边整理章节,创建页面记录人物、主题、情节线索以及它们之间的联系。最终,你将拥有一个内容丰富的配套维基。以托尔金百科(Tolkien Gateway)为例,其历经数年由志愿者社区构建而成,涵盖人物、地点、事件、语言等。你可以一边阅读,一边构建类似的内容,而 LLM 则负责所有的交叉引用和维护工作。

业务/团队:一个由 LLM 维护的内部 Wiki,内容来源于 Slack 消息、会议记录、项目文档和客户电话,可能也会有人工参与审核更新。Wiki 之所以能保持更新状态,是因为 LLM 承担了重要使命——那些团队中其他人都不愿意做的维护工作。

目前,已有开发者将 LLM Wiki 模式扩展到 OpenClaw 管理的 10 个 Agent 系统中,通过 Hermes(由 Nous Research 训练用于结构化评估)作为独立审核关卡对编译后的文章进行评分验证,以确保只有准确的内容进入永久知识库,再生成简报回馈给各个 Agent,从而形成了一个“产生-整理-验证-反馈”的闭环。


(X)

Karpathy 将 Markdown 文件看作“真理之源”,其可避免向量嵌入的“黑箱”问题。AI 给出的每一条结论都可以追溯到特定的 .md 文件,而这些文件可以由人阅读、编辑或删除。

LLM Wiki 方案探索的未来目标是合成数据生成和微调。随着 Wiki 的增长,数据通过持续的 LLM 代码校对变得越来越“纯净”,有望成为更完美的数据训练集。

LLM 不再仅仅读取 Wiki 的上下文窗口,在此基础上,用户最终有望在 Wiki 本身上对模型进行微调,从而构建一个更小、更高效的模型。这将使 LLM 通过模型权重掌握个人知识库,把研究项目真正转化为专属的定制化智能。

总体来说,这种方案是一种新的理念:通过拥有自身记忆的主动智能体,避免了以往“单次”人工智能交互的局限性。

对于个人研究人员而言,这意味着有望告别 LLM“失忆”,转而建立更长期的关系。对企业而言,这预示着原始数据湖正在向编译后的知识资产转变。或许,这也意味着我们正在进入 AI 自主知识库时代。

参考资料:

https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f

https://x.com/karpathy/status/2039805659525644595

https://x.com/himanshustwts/status/2039811786602607052

https://x.com/jumperz/status/2040166448492900356

https://venturebeat.com/data/karpathy-shares-llm-knowledge-base-architecture-that-bypasses-rag-with-an

排版:刘雅坤

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新