如何处理仅在 1 或 2 行中具有不同值的列?

数据挖掘 机器学习 数据挖掘 数据清理
2022-03-11 07:56:41

我有非常高维的数据。几乎 20% 的列在不到 1% 的行中具有不同的值。所有这些都是二进制列,并且许多列的 0 填充了几乎 98% 以上的行。

更多信息:目标变量是不平衡的(91.9%:8.1%)二元变量。
我拥有的每个变量,除了 3,都是二进制的。

我想要一些关于如何处理这样的列的想法?删除它们或打击以获得更多数据?

提前致谢。

1个回答

换句话说,你有稀疏的二元特征。绝大多数数据为零。剩下的数据是一个。

一种选择是将特征转换为更密集。这可以通过降维或特征散列来完成。

另一种选择是选择一种对稀疏特征具有鲁棒性的算法。