5 · Web 用户接口（Web User Interface）

轻量图谱增强检索 · 聚焦本章的模块关系、源码依据与实现要点。

项目LightRAG 章节5 状态全文译文模块界面与交互、图谱与关系、测试、发布与运维、系统架构

源码线索

模块标签

章节正文

该管线采用级联工作队列模型。文档通过由 _PipelineMixin 管理、并由 DocStatusStorage 状态机协调的不同状态进行流转。

下图将概念性的管线阶段映射到负责执行的具体类和方法。

标题：文档入库逻辑流程

LightRAG · 代码实体映射：入库生命周期 · 图 1

来源：lightrag/api/routers/document_routes.py:32-36, lightrag/pipeline.py:208-215, lightrag/pipeline.py:172-191, lightrag/operate.py:44-45

document_routes.py 中的 API 层管理所有文档操作的入口点。它使用复杂的锁定策略来确保并发操作期间的数据一致性，使用了诸如 busy、scanning_exclusive 和 destructive_busy 等标志。

核心编排逻辑位于 _PipelineMixin 中，它负责管理文档在 DocStatus 状态间的转换（例如，PENDING -> PARSING -> ANALYZING -> PROCESSING -> PROCESSED）。

关键组件：

LightRAG 支持多种解析引擎，通过 resolve_file_parser_directives 进行选择。选择遵循优先级顺序：文件名提示（例如 file.[mineru].pdf）、环境变量（LIGHTRAG_PARSER），最后是遗留的回退方案。

支持的引擎：

原生引擎：内置支持 .txt、.md 和 .docx 格式 lightrag/pipeline.py:40。
外部引擎：集成 MinerU 和 Docling，用于处理复杂的 PDF 和文档布局 lightrag/pipeline.py:38-39。

处理选项： 用户可以使用 i（图像）、t（表格）、e（公式）等标志以及 F/R/V/P 等片段切分策略来控制解析行为 lightrag/parser_routing.py:82-86。

使用高级解析器时，LightRAG 会在 __parsed__ 目录中生成"伴生"文件。这些文件包含文档的中间表示（IR），包括表格和图像的结构化数据。

多模态能力：

该管线通过在每个阶段更新 DocStatusStorage 来确保持久性。如果进程被中断，系统可以通过识别处于 FAILED 或 INFLIGHT 状态的文档来恢复执行 lightrag/pipeline.py:94-100。

标题：文档状态转换

LightRAG · 数据一致性与存储 · 图 2

来源：lightrag/pipeline.py:94-100, lightrag/base.py:28-32, lightrag/utils_pipeline.py:98-117

来源：lightrag/pipeline.py:172-191, lightrag/pipeline.py:33-41