数据挖掘 - 使用自动编码器进行异常检测的无监督特征减少 - 吾爱随笔录

我正在为无监督异常检测任务收集大量生成的数字特征。

我可以假设所有训练数据都被认为是正常的。

我希望某些生成的特征具有低标准偏差的特征，例如，某些特征在训练示例中可能始终为 0。相比之下，我预计其中一些特征会在异常情况下发生偏差。

由于我有很多特征，我努力进行特征减少/选择。但是，使用简单的特征选择方法，会完全去除不偏离的特征，对即将进行的检测造成更糟的影响。

为了减少特征，我正在考虑使用堆叠的自动编码器，这样每当一个特征与标准偏差很大时，它都会影响所有结果特征——导致明显的异常。

这种技术会奏效吗？如果不是，为什么？以及有什么其他技术可以解决这个问题。

此外，如果确实如此，并且我也计划使用深度自动编码器来进行异常检测，那么特征减少的第一步是否是多余的？