2.2 Argilla 人审反馈
把模型预测和人工确认显式拆开:Suggestion 来自模型,人工确认结果 来自专家,只有 人工确认结果 才会写入生产事实表。
相关来源文件
docs/11-reference-platforms-agentic-knowledge-base.md· §4 Argilla。docs/03-baseline-requirements.md· §7 AI 能力基线。
核心数据模型
| 对象 | 含义 | 本项目用法 |
|---|---|---|
| 记录 | 一条待标注样本,含 fields / 元数据 / vectors / suggestions / responses | 资料片段 + AI 标签建议 + 人工确认 |
| 模型建议 | 来自模型预测的候选答案,附置信度 | 模型给出的 L3 标签、合同字段、摘要候选 |
| 人工确认结果 | 用户在界面中给出的最终回答 / 标签 | 专家确认结果,唯一写入生产事实表 |
| Settings | 定义字段、问题、指南、元数据、vectors | 每类审核数据集的 schema |
| 问题项 | 单标签 / 多标签 / 文本 / 评分 / 排序 | L1-L3 标签、字段值、是否通过、相关性 |
来源
docs/11-reference-platforms-agentic-knowledge-base.md §4.1。
Code
argilla-io/argilla ·
记录 模型
argilla/src/argilla/_models/_record/;
模型建议 / 人工确认 子模型 argilla/src/argilla/records/_resource.py;
数据集设置 argilla/src/argilla/settings/(fields / questions / 元数据 / vectors);
Server 端持久化 argilla-server/src/argilla_server/models/。
本项目人审闭环
图 2.2.1 · AI 推荐 → 专家确认 → 写入事实表的闭环。
为什么不能直接把 LLM 输出写入生产表
不可逆性:一旦未审 LLM 标签污染了 document_tags,后续标签合并、权限过滤、检索召回都会受影响。Argilla 的 模型建议 / 人工确认 拆分提供了一个稳定撤销点。
建议的 5 类审核数据集
| 数据集 | 记录粒度 | 问题项 | 用途 |
|---|---|---|---|
tag_review | 文档或片段 | L1 / L2 / L2.5 / L3 多标签 · 是否通过 | 审核 AI 标签建议 |
field_extraction_review | 文档 | 客户名 · 合同金额 · 期限 · 政策号 · 附件清单 | 审核结构化字段抽取 |
ocr_quality_review | 页 | 文本是否可用 · 是否需人工修正 · 错误类型 | 评估 OCR 与解析质量 |
rag_answer_eval | 问题 - 答案 | 是否引用正确 · 是否越权 · 是否幻觉 · 评分 | 检索增强生成 / 智能体 回答评测 |
retrieval_eval | 查询 - 候选 | 相关 / 不相关 · 最佳证据片段 | 检索召回与重排序评测 |
来源
docs/11-reference-platforms-agentic-knowledge-base.md §4.2。
Code
Question 类型
argilla/src/argilla/settings/_question.py(LabelQuestion、MultiLabelQuestion、RatingQuestion、RankingQuestion、TextQuestion、SpanQuestion);
Server REST 接口 argilla-server/src/argilla_server/api/handlers/v1/。
Argilla 不应直接当生产标签库
Argilla 擅长标注与反馈闭环,但生产系统仍需要自己的结构化表:
- 标签字典、别名、父子关系、状态、合并历史需要数据库约束。
- 文档和标签关系需要权限、审计、版本和来源。
- Argilla 的记录是审核样本,不等同于业务事实表。
Argilla 是人审工作台,PostgreSQL 是生产事实库。两者通过同步任务保持单向写入:审核通过的 人工确认结果 才能进入事实库;事实库中的标签字典通过 settings 推送给 Argilla。
最小可行接入
- 解析任务在产生检索片段 / 字段 / 标签候选时,调用
argilla_client.log(records=...)推送到对应 数据集。 - 审核员在 Argilla 界面中处理队列,提交人工确认结果。
- 后台同步任务定期 拉取已确认 人工确认结果,按 数据集 类型分别写入
document_tags、extracted_fields、chunk_quality。 - 所有写入保留
source = "argilla_response"和review_status = "confirmed"。 - 同步任务的失败、冲突、版本不一致进入异常队列。
Code
Python SDK 入口
argilla/src/argilla/client.py;
数据集 CRUD argilla/src/argilla/datasets/;
记录批量推送 argilla/src/argilla/records/_io/(generic.py / hf_datasets.py / json.py);
远程 / 本地后端 argilla/src/argilla/_api/。