agentic_huge_data_base / wiki
页面 3 · Design·事实基线:业务主题树、证据引用、可刷新页面

3. 设计方法与信息架构

为什么不只做"搜索框 + 文件列表",而要为每个资料域、项目、政策、客户生成可导航、可问答、带源码引用的结构化知识页面。

相关来源文件
  • ai_agent_huge_data_report/docs/12-deepwiki-content-structure-design-notes.md · 全文。
  • ai_agent_huge_data_report/docs/11-reference-platforms-agentic-knowledge-base.md · §8.1 DeepWiki 可借鉴什么。

核心理念

DeepWiki = 仓库级知识地图 + 模块级说明文档 + 源码级引用 + 问答入口。

迁移到企业资料库:

企业知识页 = 资料域级知识地图 + 项目/政策级说明 + 文件/页码级引用 + 权限过滤后的问答。

四类知识页

页面类型生成触发核心内容
资料域 Wiki选择一个 SVN 顶层目录或业务域目录结构 · 文档类型 · 标签分布 · 权限范围 · 常见问题
项目 Wiki项目标签或项目目录合同 · 交付件 · 发票 · 会议 · 回款 · 风险 · 缺口
政策 Wiki政策文件或政策包政策摘要 · 条款 · 适用主体 · 申报材料 · 历史案例
客户/机构 Wiki客户、政府单位、供应商历史合作 · 相关项目 · 联系人 · 文件清单 · 风险点

单页内容模板

# 项目/资料域标题

相关原始资料
- SVN 路径 A
- Word 留档 B
- 盖章 PDF C
- 表格 D

本页范围
- 覆盖哪些业务问题
- 不覆盖哪些敏感或未确认内容

## 业务概览
项目、客户、时间、主体、关键结论。
来源:文件、页码、字段。

## 资料结构
合同、交付件、发票、会议纪要、政策依据、评审材料。

## 核心流程
从立项到交付/评审/回款的流程图。

## 关键实体
客户、我方主体、政策、项目、联系人、金额、日期。

## 缺口与风险
缺失文件、版本不一致、OCR 低置信度、待人审字段。

## 可提问问题
围绕当前资料域的推荐问题。

三条核心约束

  1. 先说明范围:先说明本页覆盖范围。哪些资料因权限不可见、哪些来自 AI 推断、哪些已人审确认。
  2. 证据可见:先列出相关源文件,正文持续给来源(文件、页码、chunk_id)。
  3. Cross-link:复杂主题不在一页塞满,跳转到子页面。项目页 → 合同页 → 交付件页 → 发票页。

建议三栏:

位置内容
左侧资料域 / 项目 Wiki 树(业务主题树,不是 SVN 文件树)
中间当前知识页正文
右侧本页目录 + 来源 + 当前页问答

左侧树示例:

企业知识中枢
  资料库总览
  合同与交付
    项目 A
    项目 B
  政策与评审
    黄埔文旅
    广东教育
  财务与回款
  内部制度
  标签与权限治理

引用机制

DeepWiki 源码引用企业资料库引用
GitHub file pathSVN path / svn_url
行号范围页码 · 版面坐标 · 表格单元格 · 片段偏移
commit hashSVN revision · file hash · parser version
source file list资料包 / 项目文件清单
refresh by commit按 SVN revision 或 file hash 增量刷新

推荐引用数据结构:

{
  "doc_id": "D-2026-0001",
  "svn_path": "/商务合作/黄埔文旅/合同/项目合同.docx",
  "svn_revision": "12345",
  "source_kind": "word",
  "page": 3,
  "chunk_id": "C-2026-0001-003",
  "bbox": null,
  "field_key": "contract_amount",
  "parser_version": "docx-parser-0.2.1",
  "review_status": "confirmed"
}
来源ai_agent_huge_data_report/docs/12-deepwiki-content-structure-design-notes.md §6。

可直接迁移的 12 条设计

  1. Last indexed:所有资料页显示索引时间、SVN revision、解析版本。
  2. Relevant source files:页面顶部列出本页依据的原始资料。
  3. 来源(来源):段落级引用必须可点击回原文。
  4. 本页目录:长页面右侧页内目录。
  5. Wiki tree:左侧是业务知识树,不是纯文件树。
  6. Cross-link:页面之间互相引用,避免长文堆叠。
  7. Refresh wiki:原文变化后可重新生成。
  8. Edit Wiki:人工修订摘要和字段,进入审计。
  9. Ask this repo/page:围绕当前资料域提问。
  10. Source-linked diagrams:流程图和架构图也要绑定来源。
  11. 范围说明:每页说明覆盖范围和不覆盖范围。
  12. Open issues:把解析失败、缺失资料、权限不足、待确认结论显性化。
来源ai_agent_huge_data_report/docs/12-deepwiki-content-structure-design-notes.md §12。

继续阅读