行之间没有(或几乎没有)差异的列值得保留吗?

数据挖掘 数据 熊猫 学习
2022-02-08 15:41:41

我有一个包含多列的数据集。经过分析,我发现很少有列只包含一个值。这些列的所有行中都有 0。它是否包含任何信息,或者我应该从数据集中删除这些列?

很少有列像它包含 100k 行 type1 和 3-4 行 type2。我也应该删除这些列还是让它们保持原样?

注意:目标列与描述的列不同。

1个回答

您描述的特征被称为低方差特征,通常您应该删除这些特征。这背后的基本原理是,低方差特征包含的信息较少。请参阅this以获得简洁的解释和python中的一些代码。一定要规范化你的特征优点之一是加快了训练阶段。