LLM Wiki应用之知识保鲜篇——过期检测、矛盾标记与来源漂移

📅 2026/7/1 18:56:23 👤 编程新知 🏷️ 技术资讯
LLM Wiki应用之知识保鲜篇——过期检测、矛盾标记与来源漂移 Wiki 最大的敌人不是信息太少而是信息老了。几个月前写了 BSP 编译流程推荐 Ubuntu 20.04。升级到 Ubuntu 24.04 发现了新兼容性问题——但 Wiki 里还是写着推荐 Ubuntu 20.04。Agent 不知道照着 Wiki 操作失败。LLM Wiki 设计了三层机制对抗知识老化过期检测、矛盾标记、来源漂移监控。三管齐下让知识腐烂变得可发现、可追溯、可修复。第一层过期检测——时间是最诚实的信号不是靠感觉判断是靠数据。Agent 对每个页面执行三个检查维度。检查一更新时间差。本页面 updated 日期 vs 关联页面最后更新日期。本页面比所有关联页面都老 90 天以上标记可能过期。为什么用关联页面而不用绝对日期一个页面可能 6 个月没更新仍正确——如果领域没变化。但关联页面都在更新而它没更新大概率是遗漏了。检查二来源新鲜度。页面引用的 sources 中最早摄入时间和最新摄入时间之差。所有来源都是 90 天前的且无后续更新标记。检查三标签活跃度。多个同标签页面最近 30 天更新了但本页面没有——可能是遗漏。如果 tags:boot 的 5 页有 4 页最近更新了第 5 页很可能也需要更新。真实案例DDR4 接口设计最后更新 2026-06-16。邻居页面启动配置更新于 06-20BSP 编译更新于 06-23DDR 参数配置更新于 06-20。Agent 标记 DDR4 接口可能过期——检查后发现确实有 1 个时序参数需要同步。第二层矛盾标记——不是谁对谁错是何时何据两份来源对同一件事给出不同结论原厂设计指南 v2.02026-03说 DDR4 CL 值建议 14v2.12026-06说建议 12。Agent 不自动选择新版本。同时保留两个标注来源和日期frontmatter 标记 contested: true。矛盾标记的三个意义读者看到知道不是笔误而是两派在打架Lint 扫描优先处理 contested 页面Agent 下次 ingest 优先搜索是否有新来源解决矛盾。矛盾 vs 错误的关键区分错误是明确的可直接修矛盾是两者都可能对需标注。判断标准——如果你不能用一句话证明新版对旧版错就是矛盾不是错误。第三层来源漂移——raw/ 文件被悄悄改了场景你摄入了一份在线文档。3 个月后作者悄悄更新了。你不知道Wiki 也不知道。检测方法摄入时记录 SHA256 哈希每次 Lint 重新计算对比——变了就是漂移。漂移的三种处理小改动 10%自动更新中等改动10-30%标记需人工复查大改动 30%重新执行完整 ingest。真实案例一次来源漂移的完整追踪2026 年 6 月 23 日Agent 在 Lint 中发现一份 raw/ 文件的 SHA256 变了。文件是 Hi3519DV500 SDK 开发指南。Agent 对比新旧内容发现三个变化交叉编译工具链从 gcc 9.3 更新为 gcc 10.3SDK 安装路径变更增加 Ubuntu 22.04/24.04 兼容性说明。三个变化分别影响了交叉编译工具链、SDK 安装升级、BSP 编译系统三个 Wiki 页面。Agent 标记了漂移但未自动更新——变化量在 10-30%属中等改动。我确认后批准同步。如果不用 SHA256 检测会怎样这份文档悄悄变了。Wiki 里还是 gcc 9.3但新 SDK 要求 gcc 10.3。照着 Wiki 操作的读者会失败——而且不知道为什么。三层机制的优先级矩阵过期矛盾漂移优先级行动YYY最高立即人工复查可能推翻重建YYN高有矛盾的过期页面优先处理YNN中可能忘了更新排查后更新NYN中可能有效但两派在打YNY中来源变了但无矛盾NNY低来源小改自动同步这个矩阵让 Agent 知道先处理什么——不是所有问题同等重要。confidence 字段的实践指南confidence 不是装饰——是给未来的自己和 Agent 看的信号。high 需来自 2 个独立来源且互相印证无矛盾。medium 来自单一来源但权威性高或多来源但有轻微不一致。low 来自单一非权威来源或个人经验或社区论坛。BSP 编译系统的 9 条踩坑记录都有实际执行日志验证——confidence: high。DDR4 接口的信号完整性建议来自原厂设计指南但只有 1 份来源——confidence: medium。某次调试发现 SPI 时钟不能超 50MHz 来自个人实验——confidence: low。high confidence 不代表永远正确——时间流逝本身就是一个新来源提醒我们重新验证曾经确信的结论。实践让保鲜自动化每次 ingest 后自动检查——新资料入库可能导致已有页面变过期。每周全量扫描——重点关注来源漂移和日志轮转不依赖 ingest 触发。每月深度审查——过一遍所有标记可能过期的页面人工判断是否真的过期同时审视 Wiki 结构是否需要调整。三层保鲜机制不保证 Wiki 永远新鲜——但保证你永远知道哪些页面已经不再新鲜。