可以使用哪些方法来检测图像数据集中的重复性?

数据挖掘 深度学习 预测建模 数据清理 图像分类 集成建模
2022-02-19 01:00:24

我想从包含 5000 万张图像的数据集中删除重复的图像。检测所有重复项的最佳方法是什么?

您认为一次性学习对此有好处吗?

2个回答

我认为dhash 技术可能会有所帮助。它本质上为每个图像创建一个签名,然后您可以隔离重复的图像。50M 可能需要一段时间,所以也许您可以尝试使用较小的子集,看看它的效果如何。

因此,这是一个简单的问题,可以使用一次性学习技术来解决。为了实现这一点,我们必须建立一个模型,该模型能够理解我们的数据,并且能够在您的数据中发现相似性或不相似性。

为此,我们必须执行以下步骤:

  1. 在相关图像的数据集上训练(或微调)网络。
  2. 训练模型后,裁剪最后的预测层以创建嵌入。
  3. 通过网络传递您的测试数据并存储单独的嵌入。
  4. 找到嵌入之间的差异并找到跨越某个阈值的差异。
  5. 这些图像可能是具有相似数据的图像,这可以很容易地用于查找数据集中的重复性。

1次

我参考了这篇关于 oneshot learning 的论文,后来发现这个博客有点帮助。