机器算法验证 - 哪个更好，均值替换和中值替换？ - 吾爱随笔录

哪个更好，均值替换和中值替换？

机器算法验证意思是中位数数据插补

2022-03-15 13:44:18

我正在做一个涉及替换一组数据中缺失值的项目（第一次这样做）。这涉及使用两种方法replacement by mean并replacement by median填写缺失值。使用这两种方法的数据的最小值、中值、最大值、均值和标准差的结果之间没有太大差异，我想知道哪种方法更好，以及如何使用结果产生了？

2个回答

它始终取决于您的数据和您的任务。

如果有一个数据集有很大的异常值，我会更喜欢中位数。例如：99% 的家庭收入低于 100，1% 的家庭收入高于 500。

另一方面，如果我们处理顾客给干洗店的衣服磨损情况（假设干洗店的操作员直观地填写了这个字段），我将用磨损的平均值来填补缺失。

最好从数据理解开始，然后这篇文章将是一个有用的起点。

归责是实现目标的一种手段，而不是目标本身。在某些情况下，替换丢失的数据可能是错误的做法。确保您首先注意为什么您的数据丢失，例如在丢失数据维基百科页面中解释的那样，并且该插补实际上适合回答您的项目试图回答的问题。

如果满足某些假设（例如，如果变量具有缺失值的概率不取决于值本身，技术上称为“随机缺失”）并且您的研究涉及多个变量，则使用多重插补可能会更好而不是通过手段或中位数进行替换。在多重插补中，所有变量的已知值用于提供缺失数据的几组估计值。这种方法可以更好地估计变量之间的潜在关系和估计的可靠性。有关更多信息，请参阅本网站上带有multiple-imputation标签的问题。

其它你可能感兴趣的问题

上一篇R 中的公式 y ~ x + 0 实际计算的是什么？下一篇评估回归模型