哪个更好,均值替换和中值替换?

机器算法验证 意思是 中位数 数据插补
2022-03-15 13:44:18

我正在做一个涉及替换一组数据中缺失值的项目(第一次这样做)。这涉及使用两种方法replacement by meanreplacement by median填写缺失值。使用这两种方法的数据的最小值、中值、最大值、均值和标准差的结果之间没有太大差异,我想知道哪种方法更好,以及如何使用结果产生了?

2个回答

它始终取决于您的数据和您的任务。

如果有一个数据集有很大的异常值,我会更喜欢中位数。例如:99% 的家庭收入低于 100,1% 的家庭收入高于 500。

另一方面,如果我们处理顾客给干洗店的衣服磨损情况(假设干洗店的操作员直观地填写了这个字段),我将用磨损的平均值来填补缺失。

最好从数据理解开始,然后这篇文章将是一个有用的起点。

归责是实现目标的一种手段,而不是目标本身。在某些情况下,替换丢失的数据可能是错误的做法。确保您首先注意为什么您的数据丢失,例如在丢失数据维基百科页面中解释的那样,并且该插补实际上适合回答您的项目试图回答的问题。

如果满足某些假设(例如,如果变量具有缺失值的概率不取决于值本身,技术上称为“随机缺失”)并且您的研究涉及多个变量,则使用多重插补可能会更好而不是通过手段或中位数进行替换。在多重插补中,所有变量的已知值用于提供缺失数据的几组估计值。这种方法可以更好地估计变量之间的潜在关系和估计的可靠性。有关更多信息,请参阅本网站上带有multiple-imputation标签的问题。