agentic_huge_data_base / wiki
页面 4 · Decisions·事实基线:采用、暂缓、待确认分开记录

4. 决策建议

把所有调研收敛为三张清单:采用什么、暂缓什么、需要继续确认什么。

相关来源文件
  • ai_agent_huge_data_report/docs/11-reference-platforms-agentic-knowledge-base.md · §12 项目决策建议。
  • ai_agent_huge_data_report/docs/10-module-phase-evaluation-baseline.md · §1 一页纸决策摘要。
  • ai_agent_huge_data_report/docs/05-community-discussion-brief.md · §13 最需要被挑战的判断。

采用什么

方案采用方式对应 Wiki 页
Paperless-ngx消费管道、自动匹配、标签管理思路2.1
Mayan EDMS文档类型、对象 ACL、文档容器、多文件 / 多版本、工作流状态2.1
Argilla模型建议 / 人工确认 人审反馈模型2.2
Dify应用编排 + 外部知识接口(不让 Dify 管事实库)2.3
RAGFlow文档理解、模板化 检索片段、引用可视化、检索测试2.3
Onyx连接器、权限同步、搜索 / 对话 双入口2.3
DeepWiki结构化知识页面 + 可问答导航形态6
PostgreSQL一期主库(元数据 / 权限 / 任务 / 全文索引)4
Qdrant二期向量检索 验证5

暂缓什么

事项原因什么时候重新评估
迁移原始文件到 Paperless / MayanSVN authz 是事实边界;迁移成本高于收益除非业务方主动要求
把 Dify / RAGFlow 作为生产唯一知识库权限、版本、审计无法对齐不重新评估
智能体自动写入 SVN反向写入会破坏事实链路三期前不评估
图谱增强检索 / 长期记忆作为一期依赖实体关系尚未稳定二期完成后
无人工确认的自动标签入库事实表污染不可逆主动学习覆盖率 ≥95% 后再评估
云端模型处理敏感原文脱敏与审批未完成二期评估
向量库作为一期生产依赖中文语义召回率小样本仅 39%二期 验证 通过 关口 后

需要继续确认

问题为什么重要动作
企业 SVN authz 的真实结构决定权限过滤模型用真实 authz 文件验证解析
Word 留档与盖章 PDF 的配对率决定合同索引可信度抽样 20 组配对样本验证
中文扫描件 OCR 质量决定 OCR 投入用 20 份盖章合同 + 20 份历史评审验证
标签词表初版是否由业务确认决定自动打标准确率业务方提供 L1 / L2 / L2.5 词表草案
是否允许 Dify / RAGFlow 接触敏感片段决定部署边界和脱敏策略安全 / 合规审查
jcode 代理运行时 PoC决定是否吸收工具注册、会话持久化、记忆和多智能体协作按 20 个跨项目研究问题验证
严格保密资料是否纳入一期决定目录范围由业务方确认
来源ai_agent_huge_data_report/docs/11-reference-platforms-agentic-knowledge-base.md §12.3;ai_agent_huge_data_report/docs/03-baseline-requirements.md §13。

关键判断(可被挑战)

最需要被挑战的 6 个判断
  1. 一期不引入向量库作为生产依赖是否正确。
  2. PostgreSQL 是否足够支撑一期全文检索和权限过滤。
  3. Word 留档优先是否会忽略签署版扫描件与正式文本差异。
  4. SVN 只读索引层是否比迁移到新文档管理系统更现实。
  5. 是否应该更早引入 Open搜索、RAGFlow、Dify 或专门文档解析平台。
  6. 当前验收指标是否过高、过低,或缺少关键指标。
来源ai_agent_huge_data_report/docs/05-community-discussion-brief.md §13。

交付前检查清单

  1. 权限过滤覆盖搜索、详情、摘要、AI 上下文、原文链接。
  2. 所有结论可回到 doc_id / chunk_id / page
  3. AI summary、human confirmed、manual override 显式区分。
  4. 页面对应的 SVN revision 和索引时间显示在元信息条。
  5. 原文变更或标签变更后可重新生成,刷新进入审计。
  6. 用户可修改摘要、标签、字段,但修改进入审计。
  7. 问答仅基于当前用户可见来源,越权检索返回 0 结果而非泄露存在性。

继续阅读