我是数据科学的新手,目前正在玩一点。数据探索和准备真的很烦人。尽管我使用熊猫。
我实现了将缺失值归入独立变量。对于数值数据,使用 Imputer 和均值策略,对于一个分类变量,我使用 Labelencoder,然后使用模式策略进行插补。
但现在我面临的问题是因变量还包含缺失值。我应该删除这些行还是应该估算这是数字。
我是数据科学的新手,目前正在玩一点。数据探索和准备真的很烦人。尽管我使用熊猫。
我实现了将缺失值归入独立变量。对于数值数据,使用 Imputer 和均值策略,对于一个分类变量,我使用 Labelencoder,然后使用模式策略进行插补。
但现在我面临的问题是因变量还包含缺失值。我应该删除这些行还是应该估算这是数字。
对于缺失数据问题,需要注意的一件事是缺失机制。根据数据集的不同,您拥有的 NA(缺失值)可能是现象条件的结果,您不应使用均值进行估算,但可能。
此外,对于因变量,如果你想用独立的模型训练一个模型来预测这个,比如说 Y,你不会使用这个观察来训练一个模型,而 NA 依赖于依赖(目标?)。然后,您将删除这些行,或者使用另一种考虑其他变量依赖性的技术。
我认为一个好的开始是看看这个: 缺失数据插补
它显示了使用像您这样的一些方法的局限性,并定义了丢失数据的机制。