为什么要基于残差进行诊断?

机器算法验证 回归 残差 诊断
2022-03-03 03:53:59

在简单的线性回归中,人们经常想要验证是否满足某些假设才能进行推理(例如,残差是正态分布的)。

通过检查拟合值是否正态分布来检查假设是否合理?

1个回答

为什么要基于残差进行诊断?

因为许多假设与的条件分布有关,而不是它的无条件分布。这相当于对误差的假设,我们通过残差进行估计。Y

在简单的线性回归中,人们经常想要验证是否满足某些假设才能进行推理(例如,残差是正态分布的)。

实际的正态性假设不是关于残差,而是关于误差项。与您拥有的最接近的是残差,这就是我们检查它们的原因。

通过检查拟合值是否正态分布来检查假设是否合理?

不,拟合值的分布取决于的模式。它并没有告诉你太多关于假设的信息。x

例如,我刚刚对模拟数据进行了回归,所有假设都已正确指定。例如,满足误差的正态性。当我们尝试检查拟合值的正态性时,会发生以下情况:

配件的正态性诊断

它们显然是不正常的;事实上,它们看起来是双峰的。为什么?好吧,因为拟合值的分布取决于的模式。错误是正常的,但拟合值可能几乎是任何值。x

人们经常检查的另一件事(实际上更频繁)是 s 的正态性......但无条件地同样,这取决于 s 的模式,因此并没有告诉您太多有关实际假设的信息。同样,我生成了一些假设都成立的数据;当我们尝试检查无条件值的正态性时,会发生以下情况:yxxy

原始 y 值的正态性诊断

的条件正态性无关y

事实上,我现在旁边有一本教科书,它讨论了这种区别(在的条件分布和无条件分布之间)——也就是说,它在前面的章节中解释了为什么只看的分布不是对然后在随后的章节中通过查看不考虑以评估假设的适用性(通常做的另一件事是只看直方图进行评估,但这是另一个问题)。Yyyx


假设是什么,我们如何检查它们以及何时需要做出它们?

  • 可以被视为固定的(观察到没有错误)我们通常不会尝试以诊断方式检查这一点(但我们应该知道它是否属实)。x

  • 之间的关系是正确指定的(例如,线性的)。之间的关系中应该没有剩余模式E(Y)xx

  • 恒定方差(即不依赖于。误差的传播是恒定的;可以通过查看残差对的传播或检查某些函数来检查它的平方残差并检查平均值的变化(例如,对数或平方根等函数。R 使用平方残差的第四个根)。Var(Y|x)xxx

  • 条件独立/错误独立。可以检查特定形式的相关性(例如,序列相关性)。如果您无法预测依赖的形式,则有点难以检查。

  • 的条件分布/误差的正态性。例如,可以通过残差的 QQ 图进行检查。Y

(实际上还有一些我没有提到的其他假设,例如附加误差,误差的均值为零,等等。)

如果您只对估计最小二乘线的拟合而不是说标准误差感兴趣,则不需要做出大部分假设。例如,误差的分布会影响推理(测试和区间),它会影响估计的效率,但 LS 线仍然是最好的线性无偏的;因此,除非分布非常不正常,以至于所有线性估计器都不好,否则如果关于误差项的假设不成立,这不一定是个大问题。