数据挖掘 - 生成对抗网络能否用于高维数值数据中的异常值检测和异常值解释？ - 吾爱随笔录

生成对抗网络能否用于高维数值数据中的异常值检测和异常值解释？

数据挖掘神经网络数据挖掘深度学习离群值甘

2022-02-18 16:44:38

我一直在建立一个模型，以在由许多传感器生成的高维数值数据中找到异常值的解释。数据包含 350 多个不同的字段，每个字段都有数值（浮点数或整数）。它看起来像：350 列和许多行。我想找到数据中的异常值/异常，以及为什么这些值是异常值的解释。

我正在阅读有关生成模型的内容，发现“即使没有标签，它们也有可能理解和解释输入数据的底层结构。” 我想知道使用 GAN 对数值数据进行异常值检测和解释是否会很好？

1个回答

请参阅Ian Goodfellow（GAN 的创建者）在 Quora 上对同一问题的回答：

肯定有一些关于它的论文，例如[1703.05921] Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery。我不从事异常检测工作，所以我没有阅读这些论文，也不太了解它们的工作原理。

值得一提的是，还有一些关于使用类似于对抗性示例的输入进行异常检测的论文：https ://arxiv.org/pdf/1706.02690.pdf

对于 GAN，要记住的一件事是鉴别器不是怪异事物的通用检测器。它试图判断一个样本是来自真实数据还是一个特定的非数据分布：生成器。因此，如果您认为可以使生成器类似于您期望需要检测的异常，则鉴别器似乎仅对异常检测有用。

尽管如此，神经网络通常是黑匣子（即不太可解释），因此它们可能会检测到异常值，但您无法分辨出它们的特征是什么。

其它你可能感兴趣的问题

上一篇数据科学中的“查找模式”是什么意思？下一篇关闭然后重新打开项目后无法立即继续 Jupyer Notebook