生成对抗网络能否用于高维数值数据中的异常值检测和异常值解释?

数据挖掘 神经网络 数据挖掘 深度学习 离群值
2022-02-18 16:44:38

我一直在建立一个模型,以在由许多传感器生成的高维数值数据中找到异常值的解释。数据包含 350 多个不同的字段,每个字段都有数值(浮点数或整数)。它看起来像:350 列和许多行。我想找到数据中的异常值/异常,以及为什么这些值是异常值的解释。

我正在阅读有关生成模型的内容,发现“即使没有标签,它们也有可能理解和解释输入数据的底层结构。” 我想知道使用 GAN 对数值数据进行异常值检测和解释是否会很好?

1个回答

请参阅Ian Goodfellow(GAN 的创建者)在 Quora 上对同一问题的回答

肯定有一些关于它的论文,例如[1703.05921] Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery我不从事异常检测工作,所以我没有阅读这些论文,也不太了解它们的工作原理。

值得一提的是,还有一些关于使用类似于对抗性示例的输入进行异常检测的论文:https ://arxiv.org/pdf/1706.02690.pdf

对于 GAN,要记住的一件事是鉴别器不是怪异事物的通用检测器。它试图判断一个样本是来自真实数据还是一个特定的非数据分布:生成器因此,如果您认为可以使生成器类似于您期望需要检测的异常,则鉴别器似乎仅对异常检测有用。

尽管如此,神经网络通常是黑匣子(即不太可解释),因此它们可能会检测到异常值,但您无法分辨出它们的特征是什么