agentic_huge_data_base / wiki
页面 1.1 · Overview·设计边界:SVN 只读索引层

1.1 系统总览

把 SVN 事实源、文档解析、结构化索引、检索、人审反馈、应用编排和 智能体研究 拆成可独立替换的能力层,避免"找一个平台全包"的依赖陷阱。

状态Architecture Overview 状态一期 / 二期 / 三期分层 范围总体架构
相关来源文件
  • docs/00-main-report.md · 第 1–5 节,PDF 解析、检索、数据管理三档架构。
  • docs/03-baseline-requirements.md · 一期边界与"做什么 / 不做什么"清单。
  • docs/05-community-discussion-brief.md · 当前倾向架构与待挑战判断。
  • docs/11-reference-platforms-agentic-knowledge-base.md · 第 2 节总体参考架构。

本页范围

本页面回答:

本页面讨论:标签算法(见 3)、入库表结构(见 4)、平台选型对比(见 2)。

分层参考架构

图 1.1 · 分层参考架构。事实流自上而下,反馈流自下而上回到结构化索引层。
图 1.1 · 分层参考架构。事实流自上而下,反馈流自下而上回到结构化索引层。

每一层的角色

解决什么问题一期二期三期
SVN 事实源文件、版本、authz 仍是企业事实保留只读保留只读保留只读
只读采集把 SVN 的文件、变更、权限拉到本地索引必做增量稳定化多源 连接器
文档理解Word / Excel / 数字 PDF 优先;OCR 补盖章件必做新增表格 / 版面多模态 验证
结构化索引元数据、任务、权限、标签、字段必做稳态扩展图谱节点
检索索引BM25 + 全文 · 标签过滤 · 引用定位BM25 + 全文+ 向量 + 重排+ 图检索
人审反馈AI 给建议 · 人确认才入库简化审核 界面Argilla 闭环主动学习
应用编排问答、流程、模型编排不做Dify 验证多智能体
智能体研究多步检索 · 报告 · 证据链不做不做必做
长期记忆 / 图谱项目 / 政策 / 客户的关系与时序记忆不做验证必做
来源docs/11-reference-platforms-agentic-knowledge-base.md §2、§11;docs/03-baseline-requirements.md §3。

为什么不替换 SVN

调研期间反复出现的一个诱惑是"直接迁移到 Paperless-ngx 或 Mayan EDMS,让它们做事实源"。基线明确否决了这一选择,原因有三:

结论:把 EDMS / 检索增强生成工具当作设计模式参考而不是事实源容器,企业 SVN 仍保留为唯一的真实文件位置。

来源docs/11-reference-platforms-agentic-knowledge-base.md §1、§3.2;docs/03-baseline-requirements.md §1、§4.2。

三条数据流

事实流:原文 → 索引 → 检索结果

图 1.2 · 事实流。原文不离开 SVN;索引层只持有可检索文本与元数据。
图 1.2 · 事实流。原文不离开 SVN;索引层只持有可检索文本与元数据。

权限流:authz → 检索过滤 → 上下文

一期权限规则的核心是过滤前置

来源docs/03-baseline-requirements.md §4.2;docs/05-community-discussion-brief.md §10.4。

反馈流:AI 建议 → 人审 → 写回结构化索引

AI 不直接写入事实表。所有标签、字段、摘要候选先进入审核队列;人审通过后产生 response,再由审核服务写到生产表,并保留来源、置信度、审计。

不要让 LLM 直接修改事实表
Argilla 式 suggestion → response 的真正作用,是把"模型说什么"和"人确认什么"显式拆开。一旦混在一起,未来很难做评测和回滚。详见 2.2 Argilla 人审反馈

三档架构选项

主报告把端到端架构拆成三档,分别匹配不同阶段:

档位组合资源适合目标
低风险原型 PostgreSQL + MinIO/NAS + pgvector 或 Qdrant + 传统 PDF 解析 / OCR 验证入库、标签、检索流程
企业可用版 PostgreSQL + MinIO + Qdrant/Milvus/Weaviate + Elasticsearch/Open搜索 + Docling/MinerU/PP-StructureV3 + 重排序 支撑 100GB 到 TB 级资料库
智能增强版 + Neo4j 图谱增强检索 + 多模态索引 + 多步 智能体检索 + 自动治理 跨项目洞察、长期知识运营
来源docs/00-main-report.md §5.1。

继续阅读