我正在处理一个数据集,并且有一个有趣的列缺少值,但我不想丢弃这些行(以免丢失其他列的数据)或进行插补(以免更改数据) . 我可以在探索性数据分析期间使用包含缺失值的列的数据框,并且在使用该特定列绘制某些内容时只使用没有缺失值的幻灯片吗?
我需要在 EDA 之前处理缺失值吗?
数据挖掘
数据
数据清理
可视化
缺失数据
2022-02-13 18:21:07
2个回答
我相信您正在寻找与特定列(X)中的缺失值一起工作,其中列(W,Y,Z)在这些行中具有重要值并且不能丢弃或进行插补,特别是对于直观地绘制它们。
是的,考虑到:
当您只计划绘制其他列(W、Y、Z 不包括 X 列)以直观地查看它们时
当您只计划在 EDA 中包含列 (X) 时,有一个 python 包 missingno 处理缺失值的数据可视化。
如果根据样本大小,包含缺失值的行数非常小,我建议将其忽略。但是如果你根据不丢失任何信息决定保留它们,你可以根据涉及空值的特性做一堆事情。
在决定下面的填充方法之前,您应该很好地了解特征列的模式。
- 您可以将空值更改为;
- 列的平均值
- 列的中位数
- 同上或下
- 只是零
- 列中重复次数最多的值
- 等等
如果有任何分类特征,您可以按性别等特征进行分组,并且可以执行与上述相同的操作。例如,如果男性有一个 NaN 身高值,您可以用男性身高的平均值等填充它。
除了所有你可以决定丢弃整个列:
- 检查列和因变量之间的相关性
- 使用 PCA 检查源数据的列表示级别
其它你可能感兴趣的问题