技术 / TECH

我让 AI 管了半年知识库：人定方向，机器做杂活

2026-06-25 约 8 分钟 ·

人写字、做判断；机器归档、补交叉引用——各干各擅长的。

半年前我写过一篇教程，讲怎么用 Claude Code + Obsidian 搭一个 Karpathy 式的知识库——核心就一句话，让 LLM 替你做所有交叉引用、归档、查重的杂活，人只管选素材、提问、定方向。

半年过去，那个库长到了一百多页，我几乎每天还在往里扔东西。

这篇不讲怎么搭（教程在那儿），讲点实话：半年用下来，哪里真香，哪里我得防着它。先把结论撂这儿——它确实解放了我，但有两件事，我慢慢学会了不敢全交给它。

真香的：维护成本几乎归零

先说好的。

Karpathy 那句话我体会很深：维护一个知识库，累人的从来不是读、也不是想，是 bookkeeping——更新交叉引用、保持摘要同步、新资料和旧结论打架时去标一句"这里有矛盾"。这些活又碎又烦，是我过去每一个笔记系统真正的死因。建的时候兴致勃勃，两周后维护成本超过了它带来的价值，就烂在那儿了。

LLMs don't get bored, don't forget to update a cross-reference, and can touch 15 files in one pass.— Andrej Karpathy

（LLM 不会烦、不会忘记更新某个交叉引用，一遍能改十五个文件。）

现在我扔一篇文章进去，它读完会顺手把十来个相关页面都更新一遍——这页补个链接、那页标个矛盾、综述里改一句话。尤其"标矛盾"那下特别值：新读的一篇推翻了三个月前某页的结论，它会主动跑去旧页上挂一句"这里和新读到的某某打架了"，而不是让两个相左的说法各自躺在库里、等我哪天自己撞见。这种活我自己是绝对坚持不下来的，但 LLM 不嫌烦。维护成本趋近于零，库就不会烂尾。这一点，是整套东西真正成立的地方，没有水分。

第一件要防的：它会一本正经地记错

但用着用着，我撞上了第一个坑，而且是个吓人的坑：它会把错的东西，工工整整地写进 wiki，还一脸笃定。

举三个我真抓到的：

有一次它在一篇笔记里写："Martin Fowler 提了两个尖锐的问题，质疑 AI 编码……" 我顺手去翻了原文——那篇文章作者根本不是 Fowler，是 Thoughtworks 的 Birgitta Böckeler；通篇对那个案例是正面参考、不是质疑；而且压根没有"两个尖锐问题"这一段。三处全错，可 LLM 写得有名有姓、煞有介事。
还有一次，它记下"有人用 ralph 这套方法、花了大约 297 美元造出一门编程语言"。听着挺带感。我翻了作者的原帖才发现：297 美元是另一个项目（一个合同 MVP）的 API 账单，造编程语言那篇原文从头到尾没给过价钱——两件事被二手报道揉成了一件，而且不止一家这么传。
类似的还有把 Chroma 一个实验的数字（精挑的三百个 token 胜过混杂的十一万个）安到了 Anthropic 头上。立场没记错，数字的出处张冠李戴了。
连版本号这种小事都躲不过。有回它记某个云服务的一项功能在 1.59 版转正，我翻官方更新日志，实际是 1.61 版才转正，1.59 改的是另一桩不相干的事——网络检索来的初稿，连版本号都能记串一位。

这些都不是 LLM "笨"。是二手转述本身就在系统性地失真——把客座作者的话安给站长、把 A 的数据记到 B 名下——而 LLM 照单全收，还因为它写得通顺，错得更有迷惑性。一个记错出处的句子，混在九十九个正确的句子里，你很难一眼看出来。

我的应对是一条硬规矩：凡是涉及"谁说的、什么数字、什么观点"这三类，必须抓回一手原文，不能只信二手转述。 这条规矩不是我一开始就想到的，是被上面这些坑一次次逼出来的。现在简直成了条件反射：它给我的任何名字、数字、版本号，我都默认它可能记错、顺手翻一眼源头。麻烦，但比一个错误在库里躺三个月、还被我反复引用，要划算得多。

第二件要防的：收集 ≠ 理解

第二个坑更隐蔽，我想了很久才敢承认。

库长到一百多页，列表拉得老长，看着很有成就感。但有天我盯着它，问了自己一句：这一百多页，我真读进脑子的，到底有多少？

有人把这事说得很透。一个叫 Nikita 的人写过一篇文章，标题直接就是劝你别把 Karpathy 这套用到个人笔记上，里面有句话扎到我了：

The cognitive act happens in writing, not before it, and certainly not after.— Nikita Shevchenko

意思是：思考就长在"写"这个动作里。你把"写"外包给了 LLM，等于顺带把思考也外包了。还有人提一个"必要阻力"的说法——手动归类、自己组织，这些麻烦本身是一种思维训练，省掉了是省事，但人会跟着退化。Karpathy 自己也警告过一种"理解债"：东西生成得太快，你来不及消化，越攒越多、越攒越不懂。

所以我现在的边界是这么划的：纯粹是 bookkeeping 的活——摘要、交叉引用、归档——尽管交给 LLM；但真正要动脑子的，读一篇难懂的东西时的推导、卡住的地方、半路冒出来的念头，我自己写，写进 journal，不让它代笔。工具性的笔记可以外包，反思性的笔记不能。这条线我守得挺严，因为我清楚，那点"麻烦"才是我真正学到东西的地方。

说到底，库越拉越长是会上瘾的——每扔一篇进去、看它哗哗更新十几页，那种"我的知识在增值"的快感很真实。但快感不等于我真懂了。它跟那些云端笔记产品最大的不同也在这儿：人家的笔记本是个容器，查完就换；这个库是笔资产，越用越厚。可资产也会贬值——要是厚起来的只是磁盘上的文件、而不是我脑子里的东西。

那些怪规矩，都是踩出来的

回头看，我给 LLM 的那份规则文件里，攒了一堆乍看莫名其妙的规矩，每一条背后都是一次教训：

原始素材必须一字不改地存。 LLM 存文章时常常手痒，想顺手"优化"两句，我明令禁止。因为原始素材是所有引用的锚点，它要是在保存的那一刻就改了原文，后面所有的核对就都失了准。
不许自称"知识库"。 这条听着好笑：我发现 LLM 写出来的东西老爱带"本知识库首次……""本库现有……"这种腔调，读着像在自我表扬。这只是个缩影——LLM 写作天然会滑向一种中立、概述、四平八稳的"wiki 腔"。你喂它一段有脾气、有立场的原文，它编译完，棱角全被磨圆了：语气、情绪、那点不合时宜的尖锐，都没了。对一个靠个人表达的博客来说，这是要命的。所以规则里我专门写了：保留原文的引用块、别把什么都改写成中立综述、逮到那几个 AI 腔口头禅就重写。
每个链接都得带个能读的标题，不许是一串光秃秃的文件名。这条纯粹是我受不了满屏的 something-or-other.md——库是给人看的，至少得让人扫一眼就知道这链子通向哪儿。

这些规矩没一条是设计出来的，全是用着用着、被坑一次补一条，慢慢长出来的。规则文件本身，也成了我和这台机器磨合半年的一份记录。

它是助手，不是大脑

半年下来，我大概把人和 LLM 的分工想清楚了：

LLM 管杂活，人管判断。 它整理、归档、交叉引用的能力，远超我这点耐心；但它会自信地记错，也会悄悄替你把思考偷走。而这两样——对不对，和你到底有没有真懂——恰恰是一个知识库最要命的地方。

所以对我来说，它是个不知疲倦、但需要时时盯着的助手，不是什么"第二大脑"。这套方法也不是银弹：你要只是想快速查点资料，市面上的现成产品比自己搭省事得多；它真正值的地方，是那种长期的、你本人也会反复回去读的积累。

我会接着用——但始终把方向和判断这两样，攥在自己手里。半年前那篇讲了怎么搭，这篇讲了搭完之后我学到的。如果你也想试，欢迎；只是记得，别把脑子也一起交出去。

分类 / CATEGORY

技术

标签 / TAGGED IN

LLM知识管理AI 协作ObsidianKarpathy