用固定值编码缺失数据是否有助于分类?

数据挖掘 分类 缺失数据
2022-02-15 12:01:29

我的数据中有很多变量缺失值(70-80%)。我见过一些人这样处理缺失值:将缺失值的变量编码为 0 或 1。其中 0 是缺失值,1 是非缺失值。

我想知道这种技术是否有用,因为我看不到任何有价值的信息算法能够从这些变量中挑选出来。另外我正在考虑使用鼠标来估算它们,但问题是在将来的使用中,我们可能无法获得缺少数据的那些变量,因此训练集和测试集将具有不同的列数

1个回答

您可以将任何值的存在视为信号 - 因此是 0 或 1。

这对您的项目有什么帮助取决于您的数据集。