这种主动学习方法是否正确?

数据挖掘 机器学习 主动学习
2022-02-18 04:40:18

假设我们有 10,000 个未标记的文档,我们希望使用批量大小为 5 的基于池的采样。我们将使用最小置信度 (LC) 进行查询策略。

这种主动学习的大纲是否合理:

1)随机选择30个文档,得到labelled:=> labelled: 30, unlabelled: 9970。

2) 在 30 个标记数据上训练模型

3)使用模型对9970个未标记文档进行预测

4)使用LC从模型最不确定的所有预测文档中选择5个

5)获取5个文档的标签:=> 标签:35,未标签:9965

6)在标记数据上重新训练模型

7) 继续执行步骤 2 - 6,直到标记资源到期或满足其他停止条件。

它是否正确?我最关心的是第 3 步)我们是否应该在每次迭代中重新训练所有数据?看起来它的计算速度可能会变慢,但另一方面,如果我们不评估每个文档,我们怎么知道哪个文档最有助于标记?

1个回答

你的流程是正确的。模型在新的标记数据上进行了重新训练。否则,下一个标签候选者将从与模型最不确定的先前候选者相同的区域中选择。通过对新的标记数据进行训练,模型将转移到最不确定的新区域。这是本次主动学习调查第 5 页中基于池的方法的图表: