agentic_huge_data_base / wiki
页面 2 · Reference Projects·设计边界:14 个参考项目,按能力层借鉴,不替代 SVN

2. 参考项目与分类

把 Paperless-ngx、Mayan EDMS、Argilla、Dify、RAGFlow、Onyx、Graphiti、Mem0、Cognee、LightRAG、jcode 以及补充参考的 LongParser、Hindsight、MemOS 放在同一张矩阵上,说明它们是什么、解决什么、在本项目的位置和分期角色。

类别参考项目矩阵 项目数量14 个开源项目 章节覆盖11 个已译,3 个译文库外
相关来源文件
  • docs/11-reference-platforms-agentic-knowledge-base.md · 第 3-8、12 节。
  • docs/13-reference-projects-deepwiki-granularity.md · 参考项目按 DeepWiki 粒度拆解。
  • docs/00-main-report.md · 第 2 节数据库类型与第 3 节搜索技术。

更明确的分类

分类参考项目看什么不看什么
文档事实源与 EDMSPaperless-ngx / Mayan EDMS入库、文档类型、多文件版本、ACL、工作流不替代 SVN 事实源
标注与人审反馈Argilla模型建议 / 人工确认、审核数据集、评测回流不当生产标签库
应用编排与知识库Dify工作流、Agent、外部知识接口不让内置知识库接管权限事实
深度文档 RAGRAGFlow / LongParser复杂文档解析、长文档任务图、检索片段、引用定位不作为全量企业资料事实库
企业搜索与连接器Onyx连接器、权限同步、搜索 / 对话双入口不假设现成连接器覆盖 SVN authz
智能体记忆、图谱与代理运行时Graphiti / Mem0 / Cognee / LightRAG / jcode / Hindsight / MemOS时序事实、长期记忆、图谱增强检索、跨资料关系、工具化研究任务、经验学习、记忆控制面不进入一期底座
来源docs/13-reference-projects-deepwiki-granularity.md §1-2,并补充项目仓库公开资料。

一图看清各平台位置

图 2.1 · 各平台在能力栈中的相对位置。本项目按“事实源仍是 SVN”的前提,把这些平台当作可借鉴模式而非容器替换。
图 2.1 · 各平台在能力栈中的相对位置。本项目按“事实源仍是 SVN”的前提,把这些平台当作可借鉴模式而非容器替换。

能力矩阵

平台核心定位所在能力层本项目用法阶段
Paperless-ngx 家庭 / 小团队可检索归档;消费管道 + 标签 + 文档类型 + 自动匹配事实源参考借鉴消费管道、标签优于文件夹、原件不覆盖设计参考
Mayan EDMS 企业级 EDMS;文档类型 + 多文件 / 版本 + ACL + 工作流事实源参考借鉴文档容器模型、对象级 ACL、非破坏性版本设计参考
Argilla 数据标注 / 反馈 / 评测;模型建议 / 人工确认 / record人审反馈5 类审核数据集:标签、字段、OCR、检索增强生成答案、检索评估一期接入
Dify 应用编排;知识库 + 工作流 + 模型编排 + 外部知识库接口应用编排二期验证,通过外部知识接口调本项目检索服务二期验证
RAGFlow 深度文档理解 RAG;模板化检索片段 + 可视化 + 引用文档理解 / 检索借鉴文档理解、模板化检索片段、引用检查、检索测试界面验证借鉴
Onyx 企业搜索 + 聊天;连接器 + 权限同步检索 / 应用编排借鉴连接器模型、权限同步作为一等能力、搜索 / 对话双入口设计参考
Graphiti 面向人工智能体的时序知识图谱长期记忆 / 图谱三期老板助理 / 项目历史三期
Mem0 智能体 / 助理的长期记忆层长期记忆三期老板助理对话连续性三期
Cognee AI 记忆控制面;remember / cognify / search长期记忆 / 图谱二期后段到三期三期
LightRAG 轻量图谱增强检索框架检索 / 图谱二期验证图谱化检索是否提升跨主题问答二期验证
jcode Rust 原生智能编码代理;工具注册、会话持久化、记忆、多智能体协作代理式研究运行时二期后段验证工具化研究任务,三期验证多智能体协作二期后段验证
LongParser 长文档解析和结构化抽取的 LangGraph 式任务链文档理解 / 抽取复核二期用合同和制度文件做长文档任务图 A/B 验证补充参考
Hindsight 让代理从成功和失败任务轨迹中学习代理学习记忆三期用于代理研究任务的经验库、失败模式和计划前召回补充参考
MemOS Memory OS;统一管理智能体记忆类型、生命周期和适配器记忆基础设施三期用于统一 Mem0、Graphiti、Cognee、Hindsight 的记忆治理补充参考
来源docs/11-reference-platforms-agentic-knowledge-base.md §3、§4、§5、§6、§7、§12,并补充项目仓库公开资料。

反模式:把它们当事实源

调研中最常见的诱惑是“用 Dify / RAGFlow / Paperless 替代 SVN”。这条路径在本项目场景下被否决:

事实源迁移的代价
  • SVN authz 已经是事实边界,迁移会引入两套权限体系,审计断裂。
  • 合同 Word 留档 + 盖章 PDF 的对应关系沉淀在 SVN 路径中,迁移要重写。
  • Dify / RAGFlow 知识库一旦写入,外部修改难以保持事实链路一致。

LongParser、Hindsight、MemOS 更要保持边界:一个只产出候选解析,一个只保存任务经验,一个只管理记忆生命周期,都不能绕过权限、引用和人工确认。

继续阅读