agentic_huge_data_base / wiki
页面 1.4 · 路线图·事实基线:一期可找可控,二期混合检索,三期智能体研究

1.4 路线图

一期让资料可找、权限可控、过程可解释;二期补语义检索与应用编排;三期做 智能体研究 与长期记忆。每一期都有明确的 关口 准入 / 准出标准。

相关来源文件
  • docs/10-module-phase-evaluation-baseline.md · §3 成本资源、§4 关口 准则、§7 阶段建议。
  • docs/11-reference-platforms-agentic-knowledge-base.md · §11 推荐分期路线。
  • docs/03-baseline-requirements.md · §3 一期范围、§9 二期方向。

三期总览

图 5.1 · 分期甘特图(示意,实际周期取决于样本和资源)。
图 5.1 · 分期甘特图(示意,实际周期取决于样本和资源)。

一期:资料可找、权限可控

子模块工作量周期资源业务价值
SVN 只读索引 + 全文检索M2–4 周CPU 服务器 · PostgreSQL资料可找、可控、可追溯
Word/Office 解析 + 合同字段M2–3 周CPU合同、会议纪要高质量索引
OCR + 人工修正S–M1–3 周CPU(批量时评估 GPU)盖章件、历史扫描件进入索引
SVN 权限映射M–L2–4 周安全联调环境系统可面向多人使用
一期暂不做
完整 智能体问答 · 自动生成正式报告 · 图谱长期记忆 · 全量迁移到 EDMS · 向量库生产依赖。

二期:混合检索与应用编排

建设项前置条件评估重点
向量检索 验证(Qdrant 优先)一期全文检索和权限稳定中文 embedding 召回率、权限过滤后向量召回
BM25 + vector + 元数据 + rerank有 50+ 自然语言业务问题标注混合检索 vs 全文检索 Recall@10 提升 ≥5pp
RAGFlow 风格 检索片段检查 + 引用检查检索片段质量稳定引用准确率 ≥95%
Dify 外部知识接口 接入检索 接口 稳定问答体验、权限不越权
Onyx 风格 连接器 + document set多数据源需求出现连接器 稳定性、权限同步
检索增强生成评测集 + Argilla 人评闭环有标注问答样本faithfulness、context recall、权限不越权

三期:智能体研究

建设项前置条件评估重点
MCP 工具: search / get_document / compare_versions / extract_fields / generate_brief检索 + 权限 + 引用稳定工具轨迹 审计、引用准确
Graphiti / Cognee / LightRAG 验证实体关系稳定跨项目、跨政策关系检索
Mem0 / Graphiti 长期记忆老板助理场景明确对话连续性、项目历史上下文
智能体工具轨迹 + 引用审计智能体工具链路可用上下文不越权、来源可追溯

关口 准则

关口准入 / 准出标准当前状态
关口 1 进入一期原型公开样本链路跑通 · 无权限泄露 · OCR 能输出文本已满足
关口 2 进入企业脱敏样本验证200–500 份脱敏资料 · 覆盖 Word 留档 + 盖章件 + 政策 + 权限待业务提供
关口 3 一期试运行准出企业样本 Recall@10 ≥85% · 无权限泄露 · Word 提取 ≥98% · OCR 空文本 ≤5%待测
关口 4 二期语义 验证 准入一期稳定 · 50+ 自然语言问题标注待测
关口 5 二期准出混合检索 Recall@10 提升 ≥5pp · P95 可接受 · 误召回不增待测
来源docs/10-module-phase-evaluation-baseline.md §4。

一期默认验收指标

指标目标说明
无权限结果泄露数0搜索 / 摘要 / 详情 / AI 上下文 / 原文链接
Word 提取成功率≥ 98%合同、会议纪要、交付件
Word 字段可检索率≥ 95%合同编号、客户名、金额、周期
Word / 扫描件配对率≥ 90%Word 留档关联到盖章 PDF
关键词命中率≥ 95%合同编号、公司名、政策号
Top10 召回率≥ 85%–90%企业脱敏样本
OCR 空文本率≤ 5%扫描 PDF、盖章件、图片
原文跳转成功率≥ 99%有权限用户可回到 SVN 原文
来源docs/05-community-discussion-brief.md §12。

继续阅读