1.1 系统总览

把 SVN 事实源、文档解析、结构化索引、检索、人审反馈、应用编排和智能体研究拆成可独立替换的能力层，避免"找一个平台全包"的依赖陷阱。

状态Architecture Overview 状态一期 / 二期 / 三期分层范围总体架构

本页范围

本页面回答：

本页面不讨论：标签算法（见 3）、入库表结构（见 4）、平台选型对比（见 2）。

图 1.1 · 分层参考架构。事实流自上而下，反馈流自下而上回到结构化索引层。

层	解决什么问题	一期	二期	三期
SVN 事实源	文件、版本、authz 仍是企业事实	保留只读	保留只读	保留只读
只读采集	把 SVN 的文件、变更、权限拉到本地索引	必做	增量稳定化	多源连接器
文档理解	Word / Excel / 数字 PDF 优先；OCR 补盖章件	必做	新增表格 / 版面	多模态验证
结构化索引	元数据、任务、权限、标签、字段	必做	稳态扩展	图谱节点
检索索引	BM25 + 全文 · 标签过滤 · 引用定位	BM25 + 全文	+ 向量 + 重排	+ 图检索
人审反馈	AI 给建议 · 人确认才入库	简化审核界面	Argilla 闭环	主动学习
应用编排	问答、流程、模型编排	不做	Dify 验证	多智能体
智能体研究	多步检索 · 报告 · 证据链	不做	不做	必做
长期记忆 / 图谱	项目 / 政策 / 客户的关系与时序记忆	不做	验证	必做

来源docs/11-reference-platforms-agentic-knowledge-base.md §2、§11；docs/03-baseline-requirements.md §3。

调研期间反复出现的一个诱惑是"直接迁移到 Paperless-ngx 或 Mayan EDMS，让它们做事实源"。基线明确否决了这一选择，原因有三：

结论：把 EDMS / 检索增强生成工具当作设计模式参考而不是事实源容器，企业 SVN 仍保留为唯一的真实文件位置。

来源docs/11-reference-platforms-agentic-knowledge-base.md §1、§3.2；docs/03-baseline-requirements.md §1、§4.2。

图 1.2 · 事实流。原文不离开 SVN；索引层只持有可检索文本与元数据。

一期权限规则的核心是过滤前置：

来源docs/03-baseline-requirements.md §4.2；docs/05-community-discussion-brief.md §10.4。

AI 不直接写入事实表。所有标签、字段、摘要候选先进入审核队列；人审通过后产生 response，再由审核服务写到生产表，并保留来源、置信度、审计。

不要让 LLM 直接修改事实表

Argilla 式 suggestion → response 的真正作用，是把"模型说什么"和"人确认什么"显式拆开。一旦混在一起，未来很难做评测和回滚。详见 2.2 Argilla 人审反馈。

主报告把端到端架构拆成三档，分别匹配不同阶段：

档位	组合	资源	适合目标
低风险原型	PostgreSQL + MinIO/NAS + pgvector 或 Qdrant + 传统 PDF 解析 / OCR	低	验证入库、标签、检索流程
企业可用版	PostgreSQL + MinIO + Qdrant/Milvus/Weaviate + Elasticsearch/Open搜索 + Docling/MinerU/PP-StructureV3 + 重排序	中	支撑 100GB 到 TB 级资料库
智能增强版	+ Neo4j 图谱增强检索 + 多模态索引 + 多步智能体检索 + 自动治理	高	跨项目洞察、长期知识运营

来源docs/00-main-report.md §5.1。