数据挖掘 - 图像数据中的数据质量评估 - 吾爱随笔录

图像数据中的数据质量评估

数据挖掘数据集美国有线电视新闻网图像分类数据清理图像预处理

2022-02-26 10:37:12

我正在研究对图像进行分类的 CNN 模型。从互联网上抓取图像文件后，我发现其中许多看起来不像搜索关键字所描述的那样（例如关键字='dog'但图像不包含狗）。因此，我手动清理了我的数据集，这非常耗费人力和时间。

我的方法是否正确，或者是否有任何工具或方法可以清理图像数据？实际上这听起来很有争议，因为这个清理工具应该为正在构建的模型完成工作——对图像进行分类。

2个回答

我正在建立@Dylan 回答的第一部分：

对于像“狗”这样的一般项目，预训练模型很容易获得。ImageNet是一个很好的起点。该数据集有大量可用的预训练模型，例如，请参阅此处的 PyTorch。由于 ImageNet 包含给定项目的多个类别，您可以检查此列表以查看哪些索引对应于哪些项目并定义映射（例如，狗是 151 到 268 类）。

完成后，手动检查标签和传输模型不一致的情况。

一种可能的方法是使用预训练模型来标记您抓取的照片，以查看它们是否包含狗的照片。然后为了简单起见，将其用作粗略过滤器，以查看单张照片是否适合您的模型。

如果您的任务非常具体，则可能很难找到经过预训练的图像识别模型：另一种方法是手动标记您的前 100 条记录或其他任何内容，以便它们具有值得信赖的标签。然后，你可以积极地增加这些图像，直到你有一个合理的数量，并训练一个分类器来预测“狗出现在图片中而不是狗出现在图片中”然后使用那个小而简单的模型作为你的“粗过滤器”来决定哪些图像包含在更大、更复杂的建模数据集中。

其它你可能感兴趣的问题

上一篇BERT和GPT-2编码如何处理<|startoftext|>、<s>等token 下一篇我应该为特征列中的每个 Id 值创建一个单独的列，还是可以按原样使用特征列？