机器算法验证 - 基于“2.5 倍 RMSE”删除异常值 - 吾爱随笔录

基于“2.5 倍 RMSE”删除异常值

机器算法验证回归异常值

2022-02-09 16:36:06

在卡尼曼和迪顿 (2010) $^\dagger$ ，作者写道：

该回归解释了 37% 的方差，均方根误差 (RMSE) 为 0.67852。为了消除异常值和不可信的收入报告，我们删除了对数收入与其预测之间的差异的绝对值超过 RMSE 2.5 倍的观察值。

这是常见的做法吗？这样做背后的直觉是什么？基于一个最初可能没有明确指定的模型来定义异常值似乎有些奇怪。异常值的确定不应该基于构成合理值的一些理论依据，而不是您的模型预测真实值的程度吗？

$\dagger$ : Daniel Kahneman, Angus Deaton (2010)：高收入提高了对生活的评价，但不能提高情绪健康。_{^{美国国家科学院院刊 2010 年 9 月，107 (38) 16489-16493；DOI: 10.1073/pnas.1011492107}}

1个回答

删除这些数据的原因就在引文中说明：即“消除异常值和不可信的收入报告”。他们同时提到这两个东西的事实意味着他们承认至少他们的一些异常值不是不可信的值，并且无论如何，他们没有就为什么具有高残差的值应该被认为是“不可信的”给出任何论据“收入价值。通过这样做，他们有效地删除了数据点，因为残差高于他们回归模型中的预期值。正如我在这里的另一个答案中所说，这无异于要求现实符合您的模型假设，并忽略不符合这些假设的现实部分。

无论这是否是一种常见做法，这都是一种可怕的做法. 之所以会出现这种情况，是因为离群数据点很难处理，而且分析师不愿意对其进行正确建模（例如，通过使用允许误差项具有较高峰度的模型），因此他们只是删除了现实中不存在的部分符合他们进行统计建模的能力。这种做法在统计上是不可取的，它会导致系统性地低估误差项中的方差和峰度的推论。本文的作者报告说，由于移除了这些异常值，他们丢弃了 3.22% 的数据 (p. 16490)。由于这些数据点中的大多数都是非常高的收入，这对他们就高收入的影响做出可靠结论的能力产生了很大的怀疑（这是他们论文的目标）。

其它你可能感兴趣的问题

上一篇神经网络和感知器有什么区别？下一篇拟合回归时是否有理由不使用正交多项式？