您应该按什么顺序进行线性回归诊断?

机器算法验证 回归 多重回归 异常值
2022-01-27 07:16:50

在线性回归分析中,我们分析异常值,研究多重共线性,检验异方差。

问题是:应用这些是否有任何命令?我的意思是,我们是否必须首先分析异常值,然后检查多重共线性?还是反过来?

有什么经验法则吗?

2个回答

这个过程是迭代的,但有一个自然的顺序:

  1. 您必须首先担心导致完全数字错误的条件多重共线性就是其中之一,因为它会产生不稳定的方程组,可能导致完全不正确的答案(精确到小数点后 16 位……)这里的任何问题通常意味着在修复之前无法继续。多重共线性通常使用方差膨胀因子和“帽子矩阵”的类似检查来诊断。此阶段的其他检查可以包括评估数据集中任何缺失值的影响并验证重要参数的可识别性。(缺少离散自变量的组合有时会在这里造成麻烦。)

  2. 接下来,您需要关注输出是反映了大部分数据还是对一小部分数据敏感。在后一种情况下,您随后所做的其他一切都可能具有误导性,因此应避免。程序包括检查异常值和杠杆(高杠杆数据可能不是异常值,但即使如此,它也可能过度影响所有结果。)如果存在回归过程的稳健替代方案,那么现在是应用它的好时机:检查它是否产生了相似的结果,并且用它来检测异常值。

  3. 最后,在达到数值稳定(因此您可以信任计算)并反映完整数据集的情况后,您转向检查正确解释输出所需的统计假设这些关注点主要集中在残差分布(包括异方差,但也扩展到对称性、分​​布形状、与预测值或其他变量的可能相关性以及自相关)、拟合优度(包括可能需要交互项),是否重新表达因变量,是否重新表达自变量。

在任何阶段,如果某些事情需要纠正,那么回到开始是明智的。根据需要重复多次。

我认为这取决于情况。如果您不希望出现任何特定问题,您可以按任何顺序检查这些问题。如果您期望异常值并且可能有理由在检测到它们后将其删除,则首先检查异常值。删除观察后,模型的其他问题可能会发生变化。之后,多重共线性和异方差之间的顺序无关紧要。我同意 Chris 的观点,即不应随意删除异常值。你需要有理由认为观察结果是错误的。

当然,如果您观察到多重共线性或异方差性,您可能需要改变您的方法。在协方差矩阵中观察到多重共线性问题,但有用于检测多重共线性和其他问题(如杠杆点)的特定诊断测试,请参阅 Belsley、Kuh 和 Welsch的Regression DiagnosticsDennis Cook 的回归书之一