使用自动编码器对分类数据进行异常检测

数据挖掘 神经网络 异常检测 自动编码器
2021-10-12 10:50:39

假设一个数据集有 0.5% 的连续特征和 99.5% 的分类(二元)特征,总共有约 2400 个特征。在这个数据集中,每个观察都是 2 个类别中的 1 个 - Fraud (1)Not Fraud (0)此外,存在很大的类别不平衡,只有 2.6% 的示例是欺诈,而其他约 97% 的示例是非欺诈。

假设我们想预测给定的示例是欺诈还是非欺诈,我们使用自动编码器采用异常检测方法。

鉴于数据集中的混合数据类型,一般来说,仅在非欺诈示例上训练的自动编码器在预测欺诈示例方面表现良好吗?是否有任何文献表明哪种架构效果最好/是否应该事先执行一些预处理(缩放和 PCA)?我问是因为我觉得自动编码器可能很难用二进制特征训练。

1个回答

一般来说,在检测欺诈示例时,自动编码器应该表现良好。欺诈示例在理论上应该具有更高的重构误差。当谈到在二进制数据上训练自动编码器时,我同意你的看法,这可能非常具有挑战性。我建议看看这个博客: https ://blog.evjang.com/2016/11/tutorial-categorical-variational.html