3. 设计方法与信息架构
为什么不只做"搜索框 + 文件列表",而要为每个资料域、项目、政策、客户生成可导航、可问答、带源码引用的结构化知识页面。
相关来源文件
ai_agent_huge_data_report/docs/12-deepwiki-content-structure-design-notes.md· 全文。ai_agent_huge_data_report/docs/11-reference-platforms-agentic-knowledge-base.md· §8.1 DeepWiki 可借鉴什么。
核心理念
DeepWiki = 仓库级知识地图 + 模块级说明文档 + 源码级引用 + 问答入口。
迁移到企业资料库:
企业知识页 = 资料域级知识地图 + 项目/政策级说明 + 文件/页码级引用 + 权限过滤后的问答。
四类知识页
| 页面类型 | 生成触发 | 核心内容 |
|---|---|---|
| 资料域 Wiki | 选择一个 SVN 顶层目录或业务域 | 目录结构 · 文档类型 · 标签分布 · 权限范围 · 常见问题 |
| 项目 Wiki | 项目标签或项目目录 | 合同 · 交付件 · 发票 · 会议 · 回款 · 风险 · 缺口 |
| 政策 Wiki | 政策文件或政策包 | 政策摘要 · 条款 · 适用主体 · 申报材料 · 历史案例 |
| 客户/机构 Wiki | 客户、政府单位、供应商 | 历史合作 · 相关项目 · 联系人 · 文件清单 · 风险点 |
单页内容模板
# 项目/资料域标题
相关原始资料
- SVN 路径 A
- Word 留档 B
- 盖章 PDF C
- 表格 D
本页范围
- 覆盖哪些业务问题
- 不覆盖哪些敏感或未确认内容
## 业务概览
项目、客户、时间、主体、关键结论。
来源:文件、页码、字段。
## 资料结构
合同、交付件、发票、会议纪要、政策依据、评审材料。
## 核心流程
从立项到交付/评审/回款的流程图。
## 关键实体
客户、我方主体、政策、项目、联系人、金额、日期。
## 缺口与风险
缺失文件、版本不一致、OCR 低置信度、待人审字段。
## 可提问问题
围绕当前资料域的推荐问题。
三条核心约束
- 先说明范围:先说明本页覆盖范围。哪些资料因权限不可见、哪些来自 AI 推断、哪些已人审确认。
- 证据可见:先列出相关源文件,正文持续给来源(文件、页码、chunk_id)。
- Cross-link:复杂主题不在一页塞满,跳转到子页面。项目页 → 合同页 → 交付件页 → 发票页。
导航结构
建议三栏:
| 位置 | 内容 |
|---|---|
| 左侧 | 资料域 / 项目 Wiki 树(业务主题树,不是 SVN 文件树) |
| 中间 | 当前知识页正文 |
| 右侧 | 本页目录 + 来源 + 当前页问答 |
左侧树示例:
企业知识中枢
资料库总览
合同与交付
项目 A
项目 B
政策与评审
黄埔文旅
广东教育
财务与回款
内部制度
标签与权限治理
引用机制
| DeepWiki 源码引用 | 企业资料库引用 |
|---|---|
| GitHub file path | SVN path / svn_url |
| 行号范围 | 页码 · 版面坐标 · 表格单元格 · 片段偏移 |
| commit hash | SVN revision · file hash · parser version |
| source file list | 资料包 / 项目文件清单 |
| refresh by commit | 按 SVN revision 或 file hash 增量刷新 |
推荐引用数据结构:
{
"doc_id": "D-2026-0001",
"svn_path": "/商务合作/黄埔文旅/合同/项目合同.docx",
"svn_revision": "12345",
"source_kind": "word",
"page": 3,
"chunk_id": "C-2026-0001-003",
"bbox": null,
"field_key": "contract_amount",
"parser_version": "docx-parser-0.2.1",
"review_status": "confirmed"
}
来源
ai_agent_huge_data_report/docs/12-deepwiki-content-structure-design-notes.md §6。可直接迁移的 12 条设计
Last indexed:所有资料页显示索引时间、SVN revision、解析版本。Relevant source files:页面顶部列出本页依据的原始资料。来源(来源):段落级引用必须可点击回原文。- 本页目录:长页面右侧页内目录。
Wiki tree:左侧是业务知识树,不是纯文件树。Cross-link:页面之间互相引用,避免长文堆叠。Refresh wiki:原文变化后可重新生成。Edit Wiki:人工修订摘要和字段,进入审计。Ask this repo/page:围绕当前资料域提问。Source-linked diagrams:流程图和架构图也要绑定来源。- 范围说明:每页说明覆盖范围和不覆盖范围。
Open issues:把解析失败、缺失资料、权限不足、待确认结论显性化。
来源
ai_agent_huge_data_report/docs/12-deepwiki-content-structure-design-notes.md §12。