何时在数据分析问题中使用缺失数据插补?

数据挖掘 数据集 数据清理 缺失数据 数据插补
2021-10-09 18:36:45

我想根据研究问题对数据集进行统计分析,并通过 R 建立逻辑回归模型和多项线性模型。但我想知道我应该在哪一步使用缺失值插补来完成数据集。我已经完成了原始数据集中每个变量的单变量分析,我发现有三个连续变量和两个分类变量有很多缺失数据。在对每个变量进行双变量分析和图形探索处理后,我想使用缺失的数据插补来完成数据集。但我不确定这是否是正确的顺序?

我应该在双变量关联分析之前使用缺失值插补来完成数据集,还是应该在那之后进行?

此外,如果我想检查结果变量的分布以找到适当的转换,我是否应该在估算缺失数据后也这样做?

谢谢!

2个回答

一般来说,您有两种选择:

  • 估算缺失数据
  • 丢弃丢失的数据

由于 ML 模型在处理更多数据时表现更好,因此通常首选前者。但是,您应该记住,插补数据不应影响特征的分布。

对于缺失值比例很高的特征尤其如此。如果一个特征有 90% 的值缺失,那么通过估算它,您就可以决定您希望它的分布是什么样的(因为该特征中的所有数据都是人为的)。在这种情况下,最好完全放弃该功能。

估算缺失数据(即用其他值填充缺失值)不适用于分析或回归。只有当你要尝试训练一个学习模型进行预测时,它才会有价值。输入随机值或推断值会扰乱您的分析