图像数据中的数据质量评估

数据挖掘 数据集 美国有线电视新闻网 图像分类 数据清理 图像预处理
2022-02-26 10:37:12

我正在研究对图像进行分类的 CNN 模型。从互联网上抓取图像文件后,我发现其中许多看起来不像搜索关键字所描述的那样(例如关键字='dog'但图像不包含狗)。因此,我手动清理了我的数据集,这非常耗费人力和时间。

我的方法是否正确,或者是否有任何工具或方法可以清理图像数据?实际上这听起来很有争议,因为这个清理工具应该为正在构建的模型完成工作——对图像进行分类。

2个回答

我正在建立@Dylan 回答的第一部分:

对于像“狗”这样的一般项目,预训练模型很容易获得。ImageNet是一个很好的起点该数据集有大量可用的预训练模型,例如,请参阅此处的 PyTorch。由于 ImageNet 包含给定项目的多个类别,您可以检查此列表以查看哪些索引对应于哪些项目并定义映射(例如,狗是 151 到 268 类)。

完成后,手动检查标签和传输模型不一致的情况。

一种可能的方法是使用预训练模型来标记您抓取的照片,以查看它们是否包含狗的照片。然后为了简单起见,将其用作粗略过滤器,以查看单张照片是否适合您的模型。

如果您的任务非常具体,则可能很难找到经过预训练的图像识别模型:另一种方法是手动标记您的前 100 条记录或其他任何内容,以便它们具有值得信赖的标签。然后,你可以积极地增加这些图像,直到你有一个合理的数量,并训练一个分类器来预测“狗出现在图片中而不是狗出现在图片中”然后使用那个小而简单的模型作为你的“粗过滤器”来决定哪些图像包含在更大、更复杂的建模数据集中。