我正在研究对图像进行分类的 CNN 模型。从互联网上抓取图像文件后,我发现其中许多看起来不像搜索关键字所描述的那样(例如关键字='dog'但图像不包含狗)。因此,我手动清理了我的数据集,这非常耗费人力和时间。
我的方法是否正确,或者是否有任何工具或方法可以清理图像数据?实际上这听起来很有争议,因为这个清理工具应该为正在构建的模型完成工作——对图像进行分类。
我正在研究对图像进行分类的 CNN 模型。从互联网上抓取图像文件后,我发现其中许多看起来不像搜索关键字所描述的那样(例如关键字='dog'但图像不包含狗)。因此,我手动清理了我的数据集,这非常耗费人力和时间。
我的方法是否正确,或者是否有任何工具或方法可以清理图像数据?实际上这听起来很有争议,因为这个清理工具应该为正在构建的模型完成工作——对图像进行分类。
一种可能的方法是使用预训练模型来标记您抓取的照片,以查看它们是否包含狗的照片。然后为了简单起见,将其用作粗略过滤器,以查看单张照片是否适合您的模型。
如果您的任务非常具体,则可能很难找到经过预训练的图像识别模型:另一种方法是手动标记您的前 100 条记录或其他任何内容,以便它们具有值得信赖的标签。然后,你可以积极地增加这些图像,直到你有一个合理的数量,并训练一个分类器来预测“狗出现在图片中而不是狗出现在图片中”然后使用那个小而简单的模型作为你的“粗过滤器”来决定哪些图像包含在更大、更复杂的建模数据集中。