在图像数据集中查找异常值

数据挖掘 深度学习 美国有线电视新闻网 图像分类 图像预处理
2021-10-05 04:43:00

我一直在从事图像分类任务,为此我从为不同类别收集的视频流中提取图像帧。

我已经训练了一个图像分类模型(使用迁移学习)但是由于异常值(或类分布中的重叠)模型的准确性很差。并且无法概括新的图像/视频流。

你能帮我解决以下问题吗

  1. 样本如何分布在每个类别中?我可以使用任何可视化技术(例如:直方图)来查看样本分布。

  2. 而且一张一张地浏览图像是一个乏味的过程,所以有没有一种技术可以让我从样本中找到异常值(异常值图像)。这样我就可以在训练模型之前删除异常值。

任何关于此的更新..

谢谢

2个回答

检测异常值实际上并不是一件容易的事。您可以通过查看不确定性测量来检测异常值。然而,有不同类型的异常值。例如,异常值可能是分布外样本(您想区分猫和狗,但您输入了企鹅),或者您可能有“异常值”,因为类估计不明确(查看chihuahua-or-muffin)。

尽管如此,我还是建议阅读深度合奏论文并查看他的参考资料。它或多或少容易理解,它们展示了一种获取异常值的方法。本质上,异常值会导致模型出现分歧。对分歧建模是本文的关键部分。得到分歧后,您可以查看分歧很大的样本并决定要做什么(例如添加新类或删除它们等)。

BiGAN,双向 GAN(GAN(生成对抗网络)的变体)可用于异常检测。 我已经用于我的用例。由于我没有大型图像数据集,因此我的结果不是那么好。