在卡尼曼和迪顿 (2010),作者写道:
该回归解释了 37% 的方差,均方根误差 (RMSE) 为 0.67852。为了消除异常值和不可信的收入报告,我们删除了对数收入与其预测之间的差异的绝对值超过 RMSE 2.5 倍的观察值。
这是常见的做法吗?这样做背后的直觉是什么?基于一个最初可能没有明确指定的模型来定义异常值似乎有些奇怪。异常值的确定不应该基于构成合理值的一些理论依据,而不是您的模型预测真实值的程度吗?
: Daniel Kahneman, Angus Deaton (2010):高收入提高了对生活的评价,但不能提高情绪健康。美国国家科学院院刊 2010 年 9 月,107 (38) 16489-16493;DOI: 10.1073/pnas.1011492107