假设我们有 10,000 个未标记的文档,我们希望使用批量大小为 5 的基于池的采样。我们将使用最小置信度 (LC) 进行查询策略。
这种主动学习的大纲是否合理:
1)随机选择30个文档,得到labelled:=> labelled: 30, unlabelled: 9970。
2) 在 30 个标记数据上训练模型
3)使用模型对9970个未标记文档进行预测
4)使用LC从模型最不确定的所有预测文档中选择5个
5)获取5个文档的标签:=> 标签:35,未标签:9965
6)在标记数据上重新训练模型
7) 继续执行步骤 2 - 6,直到标记资源到期或满足其他停止条件。
它是否正确?我最关心的是第 3 步)我们是否应该在每次迭代中重新训练所有数据?看起来它的计算速度可能会变慢,但另一方面,如果我们不评估每个文档,我们怎么知道哪个文档最有助于标记?
