我想从包含 5000 万张图像的数据集中删除重复的图像。检测所有重复项的最佳方法是什么?
您认为一次性学习对此有好处吗?
我认为dhash 技术可能会有所帮助。它本质上为每个图像创建一个签名,然后您可以隔离重复的图像。50M 可能需要一段时间,所以也许您可以尝试使用较小的子集,看看它的效果如何。
因此,这是一个简单的问题,可以使用一次性学习技术来解决。为了实现这一点,我们必须建立一个模型,该模型能够理解我们的数据,并且能够在您的数据中发现相似性或不相似性。
为此,我们必须执行以下步骤:
我参考了这篇关于 oneshot learning 的论文,后来发现这个博客有点帮助。