如何在预处理中处理变量的固定值

数据挖掘 数据科学模型 预处理 虚拟变量
2022-03-08 07:25:05

我有一个数据集,其中包含几个值不变的变量。一些变量是非数字的(例如,该变量的所有值都包含值 5),并且很少有变量是实值但都是相同的值。在对变量进行标准化以使每个变量均值为零且方差为 1 时,这些变量会给出 NaN 值。因此,是否可以从标准化/标准化步骤中排除包含常量值的此类变量(无论是分类变量还是实数值)?这些变量作为特征很重要,因此我无法删除它们。有没有其他方法来处理这些变量?

1个回答

根据定义,如果这些列或特征包含一个常数值而输出变量发生变化,那么它们不会影响输出并且可能会被忽略。

更正式的测试是确定使用该特征的模型之间的差异有多少可归因于该特征。

说明此原理的一个简单示例是查找 PCA 的示例。在这些示例中,该技术尝试并识别导致最大差异的特征。