数据挖掘 - 如何决定接下来要标记哪些图像？ - 吾爱随笔录

如何决定接下来要标记哪些图像？

数据挖掘图像分类标签

2022-02-16 16:30:47

我们有一个包含 2 万张图像的自定义数据集，其中包含两个像素级标记类。然而，我们还有 100 万张原始图像，我们想对其进行标记。

我们想首先标记最重要的新图像。重要性定义为：

包含更多新信息的图像
图像帮助我们的深度学习边界框分类器改进

因此，我们首先要标记与已经标记的图像完全不同的图像，而不是标记图像，我们已经有大约一千个相似的图像，并帮助更多地改进我们的分类器。

我们如何分配优先级并决定首先标记哪些图像？

1个回答

这种类型的问题被认为是“主动学习”的一部分。目前有很多关于这个主题的研究，但一些第一种方法相对容易，具体取决于您使用的模型类型。既然您提到您正在使用深度学习边界框检测器，我将展示一些如何使用卷积神经网络解决此问题的示例。

核心思想是我们想要对未标记样本的潜在增益进行某种测量。这样我们就可以在我们的标记训练集上训练我们的模型，预测我们未标记集的标签，并测量哪些示例对标记最有用。

在分类的情况下，您可以使用 sigmoid/softmax 输出并从那里获得某种不确定性，但是深度学习模型通常对它们的预测相当确定，并且高概率并不自动意味着它预测得很好。

另一种方法是在训练期间在模型中使用 dropout，然后将 dropout 应用于对未标记集的预测。通过对多个 dropout 掩码进行采样并比较所有不同的预测，您可以测量输出的差异程度。如果输出非常相似，如果您标记它，您的模型不太可能学到更多，但是如果输出变化很大，那么这个示例可能存在于您的模型不太了解或不太了解的特征空间的一部分然而。

有很多方法可以解决这个问题，我在这里写的只是对“主动学习”概念的介绍。有很多关于这个主题的论文！编辑：我实际上并没有阅读很多这项研究，但这里有一些：

https://arxiv.org/pdf/1703.02910.pdf

https://arxiv.org/pdf/1707.05928.pdf

https://arxiv.org/pdf/1701.03551.pdf

其它你可能感兴趣的问题

上一篇用于序数分类的 CNN 下一篇如何防止神经网络选择“最简单”的解决方案