2.5.3 Argilla
模型可以提出标签、字段和相关性建议,但生产事实必须由人确认,确认结果还要能回流评测和训练。
业务需求人工复核与反馈数据
架构位置位于模型建议与生产事实库之间,是人工复核工作台和反馈数据集管理层
落地阶段一期可接入
相关来源文件
ai_agent_huge_data_report/docs/13-reference-projects-deepwiki-granularity.mdai_agent_huge_data_report/docs/11-reference-platforms-agentic-knowledge-base.md
DeepWiki 中文译文子页
Argilla 的 DeepWiki 中文译文入口
模型提出标签、字段和相关性建议,生产事实由人工确认,确认结果回流评测和训练。
28/28 页中文译文
译文覆盖完整
界面与交互、接口与服务契约、检索、召回与索引
业务问题与适用场景
模型可以提出标签、字段和相关性建议,但生产事实必须由人确认,确认结果还要能回流评测和训练。
本页从 Argilla 中拆出问题解决方式、对象边界、关键机制和可迁移设计,避免“看过一个开源项目”停留在名词层面。
架构位置与边界
位于模型建议与生产事实库之间,是人工复核工作台和反馈数据集管理层。
落地判断
如果该项目能力进入本项目,必须先回答三件事:是否保留现有事实源,是否能继承权限,是否能把每个结论回到来源证据。核心对象与数据模型
| 对象 | 作用 | 本项目映射 |
|---|---|---|
记录Record | 一条待审核样本,可对应文档、片段、问答或抽取任务。 | review_items |
字段Field | 展示给审核人的正文、路径、摘要、图片、候选证据。 | review_fields |
问题项Question | 需要审核人回答的标签、字段、评分或相关性判断。 | review_questions |
模型建议Suggestion | 规则或模型给出的候选标签、字段值、评分。 | model_suggestions |
人工回应Response | 专家确认、修改或驳回后的结果。 | review_responses |
数据集设置Dataset Settings | 定义每类复核任务的字段和问题结构。 | review_task_schema |
主流程与数据流
图 2.5.3 · Argilla 主流程与数据流。
关键实现机制
| 机制 | 拆解说明 |
|---|---|
| 建议与事实分离 | 模型输出默认只是候选,不直接污染生产标签和字段。 |
| 任务类型分离 | 标签审核、字段抽取、检索相关性、回答质量评估应拆成不同数据集。 |
| 反馈闭环 | 确认结果既写入事实库,也进入评测集,推动规则和模型迭代。 |
| 专家负担控制 | 只把低置信、高价值、冲突样本推给人工,避免复核队列失控。 |
技术亮点
- 把模型能力产品化为可审计建议,避免黑箱自动改库。
- 非常适合标签体系建设和维护阶段。
- 能沉淀高质量样本,持续提升抽取和分类能力。
不适合照搬的部分
- 不负责生产权限、业务审计和标签合并历史。
- 需要配套任务抽样策略,否则人工成本会迅速上升。
映射到本项目
| 本项目设计点 | 落地说明 |
|---|---|
| 标签复核队列 | 候选标签必须经过人工确认或批量规则确认。 |
| 字段抽取复核 | 金额、日期、主体、政策文号等关键字段进入专家复核。 |
| 检索评测集 | 保存问题、候选片段、相关性评分和标准答案。 |
验证清单
- 统计每周低置信样本量和专家处理时长,确认队列规模可运营。
- 对比人工确认前后的标签准确率,判断模型建议是否真的节省审核时间。
依据
术语显示规则
- 正文
- 优先使用中文术语;项目名、接口名和代码字段保留原名。
- 原名
- 原英文名以灰色代码标识显示,便于索引和核对定义,不打断常规阅读。
下一页2.5.4 Dify