2.5.3 Argilla

模型可以提出标签、字段和相关性建议，但生产事实必须由人确认，确认结果还要能回流评测和训练。

业务需求人工复核与反馈数据

架构位置位于模型建议与生产事实库之间，是人工复核工作台和反馈数据集管理层

落地阶段一期可接入

相关来源文件

ai_agent_huge_data_report/docs/13-reference-projects-deepwiki-granularity.md
ai_agent_huge_data_report/docs/11-reference-platforms-agentic-knowledge-base.md

DeepWiki 中文译文子页

Argilla 的 DeepWiki 中文译文入口

模型提出标签、字段和相关性建议，生产事实由人工确认，确认结果回流评测和训练。

28/28 页中文译文译文覆盖完整界面与交互、接口与服务契约、检索、召回与索引

项目要点页一期可接入 DeepWiki 中文译文28/28 DeepWiki 原页argilla-io/argilla 1 · 总览17539 字符 1.1 · 关键特性16928 字符 1.2 · 架构总览17749 字符 2 · 核心组件16039 字符

业务问题与适用场景

模型可以提出标签、字段和相关性建议，但生产事实必须由人确认，确认结果还要能回流评测和训练。

本页从 Argilla 中拆出问题解决方式、对象边界、关键机制和可迁移设计，避免“看过一个开源项目”停留在名词层面。

架构位置与边界

位于模型建议与生产事实库之间，是人工复核工作台和反馈数据集管理层。

落地判断

如果该项目能力进入本项目，必须先回答三件事：是否保留现有事实源，是否能继承权限，是否能把每个结论回到来源证据。

核心对象与数据模型

对象	作用	本项目映射
记录`Record`	一条待审核样本，可对应文档、片段、问答或抽取任务。	`review_items`
字段`Field`	展示给审核人的正文、路径、摘要、图片、候选证据。	`review_fields`
问题项`Question`	需要审核人回答的标签、字段、评分或相关性判断。	`review_questions`
模型建议`Suggestion`	规则或模型给出的候选标签、字段值、评分。	`model_suggestions`
人工回应`Response`	专家确认、修改或驳回后的结果。	`review_responses`
数据集设置`Dataset Settings`	定义每类复核任务的字段和问题结构。	`review_task_schema`

主流程与数据流

图 2.5.3 · Argilla 主流程与数据流。

图 2.5.3 · Argilla 主流程与数据流。

关键实现机制

机制	拆解说明
建议与事实分离	模型输出默认只是候选，不直接污染生产标签和字段。
任务类型分离	标签审核、字段抽取、检索相关性、回答质量评估应拆成不同数据集。
反馈闭环	确认结果既写入事实库，也进入评测集，推动规则和模型迭代。
专家负担控制	只把低置信、高价值、冲突样本推给人工，避免复核队列失控。

技术亮点

把模型能力产品化为可审计建议，避免黑箱自动改库。
非常适合标签体系建设和维护阶段。
能沉淀高质量样本，持续提升抽取和分类能力。

不适合照搬的部分

不负责生产权限、业务审计和标签合并历史。
需要配套任务抽样策略，否则人工成本会迅速上升。

映射到本项目

本项目设计点	落地说明
标签复核队列	候选标签必须经过人工确认或批量规则确认。
字段抽取复核	金额、日期、主体、政策文号等关键字段进入专家复核。
检索评测集	保存问题、候选片段、相关性评分和标准答案。

验证清单

统计每周低置信样本量和专家处理时长，确认队列规模可运营。
对比人工确认前后的标签准确率，判断模型建议是否真的节省审核时间。

依据

术语显示规则

正文: 优先使用中文术语；项目名、接口名和代码字段保留原名。
原名: 原英文名以灰色代码标识显示，便于索引和核对定义，不打断常规阅读。

下一页2.5.4 Dify