我正在为无监督异常检测任务收集大量生成的数字特征。
我可以假设所有训练数据都被认为是正常的。
我希望某些生成的特征具有低标准偏差的特征,例如,某些特征在训练示例中可能始终为 0。相比之下,我预计其中一些特征会在异常情况下发生偏差。
由于我有很多特征,我努力进行特征减少/选择。但是,使用简单的特征选择方法,会完全去除不偏离的特征,对即将进行的检测造成更糟的影响。
为了减少特征,我正在考虑使用堆叠的自动编码器,这样每当一个特征与标准偏差很大时,它都会影响所有结果特征——导致明显的异常。
这种技术会奏效吗?如果不是,为什么?以及有什么其他技术可以解决这个问题。
此外,如果确实如此,并且我也计划使用深度自动编码器来进行异常检测,那么特征减少的第一步是否是多余的?