总是删除高度相关的变量是一种好习惯吗?

数据挖掘 机器学习 分类数据 相关性 编码
2022-03-08 15:14:39

1- 在训练模型之前删除高度相关的特征总是有益的吗?如果没有,为什么不呢。

2- 在删除高度相关的特征之前,您会在适用的情况下执行 One Hot 编码吗?(考虑到虚拟变量可能与另一个变量高度相关)

谢谢

1个回答

(1)没有例如,如果您有计算机视觉问题,那么图像的每个像素都是一个特征。大多数相邻像素高度相关。

例如,请参见HASYv2 数据集的以下图像:

在此处输入图像描述