哪个顺序是正确的特征选择然后是异常值检测,反之亦然?

数据挖掘 特征选择 离群值
2022-02-22 16:46:43

这些命令中哪一个是正确的?

第一(特征选择) 第二(异常检测)

或者

第一个(异常值检测) 第二个(特征选择)

1个回答

在大多数情况下,特征选择应该在异常值检测之后进行。异常值检测应该在数据预处理的初始阶段进行,而特征提取/选择可以在数据预处理的最后阶段进行。

必须事先检测异常值,以便知道该特定预测器的实际行为。然后根据去除异常值后的行为,可以决定是否将其保留为特征。

许多特征选择算法(如 PCA、回归等)对异常值很敏感,因此如果使用此类算法提取特征,那么最好事先去除异常值。