我有非常高维的数据。几乎 20% 的列在不到 1% 的行中具有不同的值。所有这些都是二进制列,并且许多列的 0 填充了几乎 98% 以上的行。
更多信息:目标变量是不平衡的(91.9%:8.1%)二元变量。
我拥有的每个变量,除了 3,都是二进制的。
我想要一些关于如何处理这样的列的想法?删除它们或打击以获得更多数据?
提前致谢。
我有非常高维的数据。几乎 20% 的列在不到 1% 的行中具有不同的值。所有这些都是二进制列,并且许多列的 0 填充了几乎 98% 以上的行。
更多信息:目标变量是不平衡的(91.9%:8.1%)二元变量。
我拥有的每个变量,除了 3,都是二进制的。
我想要一些关于如何处理这样的列的想法?删除它们或打击以获得更多数据?
提前致谢。
换句话说,你有稀疏的二元特征。绝大多数数据为零。剩下的数据是一个。
一种选择是将特征转换为更密集。这可以通过降维或特征散列来完成。
另一种选择是选择一种对稀疏特征具有鲁棒性的算法。