2.5.1 Paperless-ngx

把分散文件稳定纳入可检索、可归档、可自动分类的资料库，同时保留原件和处理痕迹。

业务需求文档归档与消费管道

架构位置位于入库后的文档消费层，负责文件接收、文字识别、自动匹配、标签化和归档展示，不替代 SVN 或企业事实库

落地阶段一期可借鉴

DeepWiki 中文译文子页

Paperless-ngx 的 DeepWiki 中文译文入口

把分散文件稳定纳入可检索、可归档、可自动分类的资料库，同时保留原件和处理痕迹。

22/22 页中文译文译文覆盖完整文档对象与元数据、系统架构、界面与交互

把分散文件稳定纳入可检索、可归档、可自动分类的资料库，同时保留原件和处理痕迹。

本页从 Paperless-ngx 中拆出问题解决方式、对象边界、关键机制和可迁移设计，避免“看过一个开源项目”停留在名词层面。

位于入库后的文档消费层，负责文件接收、文字识别、自动匹配、标签化和归档展示，不替代 SVN 或企业事实库。

落地判断

如果该项目能力进入本项目，必须先回答三件事：是否保留现有事实源，是否能继承权限，是否能把每个结论回到来源证据。

对象	作用	本项目映射
文档`Document`	已入库的可检索文档，是归档、预览、全文检索和标签关系的中心对象。	`documents / document_versions`
标签`Tag`	用多标签表达业务主题，避免把所有分类语义塞进目录层级。	`tags / document_tags`
往来方`Correspondent`	原系统偏个人文档往来对象，本项目可扩展为客户、政府单位、合同主体、我方主体。	`parties / organizations`
文档类型`Document Type`	区分合同、发票、政策、评审材料、会议纪要等处理模板。	`document_types`
自定义字段`Custom Field`	承载金额、日期、项目编号、政策文号等结构化抽取结果。	`document_fields`
工作流`Workflow`	基于事件触发自动赋值、路由或人工复核。	`ingestion_jobs / review_tasks`

图 2.5.1 · Paperless-ngx 主流程与数据流。

机制	拆解说明
消费目录思想	把文件进入系统的动作抽象成任务队列，支持失败重试、重复文件检测、处理状态追踪。
规则优先的自动匹配	路径、文件名、固定关键词先行，模型只补充低置信候选，降低自动打标污染。
原件不覆盖	原始文件、解析文本、清洗文本、摘要、缩略图、向量和索引分别保存来源关系。
标签独立建模	标签需要作为可治理、可合并、可禁用、可追溯的业务词表独立维护。

本项目设计点	落地说明
入库任务表	记录文件来源、修订号、处理状态、错误、重试次数和处理器版本。
标签候选表	区分规则建议、模型建议、人工确认结果。
文档衍生物表	保存原件、识别文本、清洗文本、预览图、摘要和向量之间的来源关系。

术语显示规则