agentic_huge_data_base / wiki
页面 2.2 · Argilla·事实基线:模型建议进入人审队列,生产事实由人确认

2.2 Argilla 人审反馈

把模型预测和人工确认显式拆开:Suggestion 来自模型,人工确认结果 来自专家,只有 人工确认结果 才会写入生产事实表。

类别人工复核与反馈数据 Layer人审反馈层 阶段一期作为标签与字段复核模式
相关来源文件
  • docs/11-reference-platforms-agentic-knowledge-base.md · §4 Argilla。
  • docs/03-baseline-requirements.md · §7 AI 能力基线。

核心数据模型

对象含义本项目用法
记录一条待标注样本,含 fields / 元数据 / vectors / suggestions / responses资料片段 + AI 标签建议 + 人工确认
模型建议来自模型预测的候选答案,附置信度模型给出的 L3 标签、合同字段、摘要候选
人工确认结果用户在界面中给出的最终回答 / 标签专家确认结果,唯一写入生产事实表
Settings定义字段、问题、指南、元数据、vectors每类审核数据集的 schema
问题项单标签 / 多标签 / 文本 / 评分 / 排序L1-L3 标签、字段值、是否通过、相关性
来源docs/11-reference-platforms-agentic-knowledge-base.md §4.1。
Code argilla-io/argilla · 记录 模型 argilla/src/argilla/_models/_record/; 模型建议 / 人工确认 子模型 argilla/src/argilla/records/_resource.py; 数据集设置 argilla/src/argilla/settings/(fields / questions / 元数据 / vectors); Server 端持久化 argilla-server/src/argilla_server/models/

本项目人审闭环

图 2.2.1 · AI 推荐 → 专家确认 → 写入事实表的闭环。
图 2.2.1 · AI 推荐 → 专家确认 → 写入事实表的闭环。
为什么不能直接把 LLM 输出写入生产表
不可逆性:一旦未审 LLM 标签污染了 document_tags,后续标签合并、权限过滤、检索召回都会受影响。Argilla 的 模型建议 / 人工确认 拆分提供了一个稳定撤销点

建议的 5 类审核数据集

数据集记录粒度问题项用途
tag_review文档或片段L1 / L2 / L2.5 / L3 多标签 · 是否通过审核 AI 标签建议
field_extraction_review文档客户名 · 合同金额 · 期限 · 政策号 · 附件清单审核结构化字段抽取
ocr_quality_review文本是否可用 · 是否需人工修正 · 错误类型评估 OCR 与解析质量
rag_answer_eval问题 - 答案是否引用正确 · 是否越权 · 是否幻觉 · 评分检索增强生成 / 智能体 回答评测
retrieval_eval查询 - 候选相关 / 不相关 · 最佳证据片段检索召回与重排序评测
来源docs/11-reference-platforms-agentic-knowledge-base.md §4.2。
Code Question 类型 argilla/src/argilla/settings/_question.pyLabelQuestionMultiLabelQuestionRatingQuestionRankingQuestionTextQuestionSpanQuestion); Server REST 接口 argilla-server/src/argilla_server/api/handlers/v1/

Argilla 不应直接当生产标签库

Argilla 擅长标注与反馈闭环,但生产系统仍需要自己的结构化表:

Argilla 是人审工作台,PostgreSQL 是生产事实库。两者通过同步任务保持单向写入:审核通过的 人工确认结果 才能进入事实库;事实库中的标签字典通过 settings 推送给 Argilla。

最小可行接入

  1. 解析任务在产生检索片段 / 字段 / 标签候选时,调用 argilla_client.log(records=...) 推送到对应 数据集。
  2. 审核员在 Argilla 界面中处理队列,提交人工确认结果。
  3. 后台同步任务定期 拉取已确认 人工确认结果,按 数据集 类型分别写入 document_tagsextracted_fieldschunk_quality
  4. 所有写入保留 source = "argilla_response"review_status = "confirmed"
  5. 同步任务的失败、冲突、版本不一致进入异常队列。
Code Python SDK 入口 argilla/src/argilla/client.py; 数据集 CRUD argilla/src/argilla/datasets/; 记录批量推送 argilla/src/argilla/records/_io/generic.py / hf_datasets.py / json.py); 远程 / 本地后端 argilla/src/argilla/_api/

继续阅读