假设一个数据集有 0.5% 的连续特征和 99.5% 的分类(二元)特征,总共有约 2400 个特征。在这个数据集中,每个观察都是 2 个类别中的 1 个 - Fraud (1)或Not Fraud (0)。此外,存在很大的类别不平衡,只有 2.6% 的示例是欺诈,而其他约 97% 的示例是非欺诈。
假设我们想预测给定的示例是欺诈还是非欺诈,我们使用自动编码器采用异常检测方法。
鉴于数据集中的混合数据类型,一般来说,仅在非欺诈示例上训练的自动编码器在预测欺诈示例方面表现良好吗?是否有任何文献表明哪种架构效果最好/是否应该事先执行一些预处理(缩放和 PCA)?我问是因为我觉得自动编码器可能很难用二进制特征训练。