4. 决策建议

把所有调研收敛为三张清单：采用什么、暂缓什么、需要继续确认什么。

采用什么

方案	采用方式	对应 Wiki 页
Paperless-ngx	消费管道、自动匹配、标签管理思路	2.1
Mayan EDMS	文档类型、对象 ACL、文档容器、多文件 / 多版本、工作流状态	2.1
Argilla	模型建议 / 人工确认人审反馈模型	2.2
Dify	应用编排 + 外部知识接口（不让 Dify 管事实库）	2.3
RAGFlow	文档理解、模板化检索片段、引用可视化、检索测试	2.3
Onyx	连接器、权限同步、搜索 / 对话双入口	2.3
DeepWiki	结构化知识页面 + 可问答导航形态	6
PostgreSQL	一期主库（元数据 / 权限 / 任务 / 全文索引）	4
Qdrant	二期向量检索验证	5

暂缓什么

事项	原因	什么时候重新评估
迁移原始文件到 Paperless / Mayan	SVN authz 是事实边界；迁移成本高于收益	除非业务方主动要求
把 Dify / RAGFlow 作为生产唯一知识库	权限、版本、审计无法对齐	不重新评估
智能体自动写入 SVN	反向写入会破坏事实链路	三期前不评估
图谱增强检索 / 长期记忆作为一期依赖	实体关系尚未稳定	二期完成后
无人工确认的自动标签入库	事实表污染不可逆	主动学习覆盖率 ≥95% 后再评估
云端模型处理敏感原文	脱敏与审批未完成	二期评估
向量库作为一期生产依赖	中文语义召回率小样本仅 39%	二期验证通过关口后

需要继续确认

问题	为什么重要	动作
企业 SVN authz 的真实结构	决定权限过滤模型	用真实 authz 文件验证解析
Word 留档与盖章 PDF 的配对率	决定合同索引可信度	抽样 20 组配对样本验证
中文扫描件 OCR 质量	决定 OCR 投入	用 20 份盖章合同 + 20 份历史评审验证
标签词表初版是否由业务确认	决定自动打标准确率	业务方提供 L1 / L2 / L2.5 词表草案
是否允许 Dify / RAGFlow 接触敏感片段	决定部署边界和脱敏策略	安全 / 合规审查
jcode 代理运行时 PoC	决定是否吸收工具注册、会话持久化、记忆和多智能体协作	按 20 个跨项目研究问题验证
严格保密资料是否纳入一期	决定目录范围	由业务方确认

来源ai_agent_huge_data_report/docs/11-reference-platforms-agentic-knowledge-base.md §12.3；ai_agent_huge_data_report/docs/03-baseline-requirements.md §13。

关键判断（可被挑战）

最需要被挑战的 6 个判断

一期不引入向量库作为生产依赖是否正确。
PostgreSQL 是否足够支撑一期全文检索和权限过滤。
Word 留档优先是否会忽略签署版扫描件与正式文本差异。
SVN 只读索引层是否比迁移到新文档管理系统更现实。
是否应该更早引入 Open搜索、RAGFlow、Dify 或专门文档解析平台。
当前验收指标是否过高、过低，或缺少关键指标。

来源ai_agent_huge_data_report/docs/05-community-discussion-brief.md §13。

交付前检查清单

权限过滤覆盖搜索、详情、摘要、AI 上下文、原文链接。
所有结论可回到 doc_id / chunk_id / page。
AI summary、human confirmed、manual override 显式区分。
页面对应的 SVN revision 和索引时间显示在元信息条。
原文变更或标签变更后可重新生成，刷新进入审计。
用户可修改摘要、标签、字段，但修改进入审计。
问答仅基于当前用户可见来源，越权检索返回 0 结果而非泄露存在性。

继续阅读

回到 Overview · 重新进入站点导航。
1.4 路线图 · 上述决策对应到关口准入 / 准出。