机器算法验证 - 违反线性回归的同方差假设有什么危险？ - 吾爱随笔录

违反线性回归的同方差假设有什么危险？

机器算法验证 r 回归异方差假设

2022-01-29 20:17:16

例如，考虑ChickWeightR 中的数据集。方差显然会随着时间的推移而增长，所以如果我使用简单的线性回归，例如：

m <- lm(weight ~ Time*Diet, data=ChickWeight)

我的问题：

该模型的哪些方面会存在问题？
问题是否仅限于范围外的推断Time？
线性回归对违反这一假设的容忍度如何（即，它必须具有多大的异方差性才能引起问题）？

4个回答

在这种情况下，线性模型（或“普通最小二乘法”）仍然具有其无偏性。

面对错误术语中的异方差性，您仍然有无偏的参数估计，但您在协方差矩阵上松了：您的推断（即参数测试）可能是错误的。常见的解决方法是使用一种稳健的方法来计算协方差矩阵，即标准误差。您使用哪一个在某种程度上取决于域，但 White 的方法是一个开始。

为了完整性，误差项的序列相关性更差，因为它会导致参数估计有偏差。

同方差性是 OLS 成为最佳线性无偏估计量 (BLUE) 所需的高斯马尔可夫假设之一。

高斯-马尔可夫定理告诉我们系数的最小二乘估计 $\beta$ 是无偏的，并且在所有无偏线性估计器中具有最小方差，因为我们满足所有高斯-马尔可夫假设。您可以在此处找到有关高斯-马尔可夫定理的更多信息，包括该定理的数学证明。此外，您可以在此处找到 OLS 假设的完整列表，包括对违反它们时会发生什么的解释。

简要总结上述网站的信息，异方差性不会在您的系数估计中引入偏差。但是，鉴于异方差性，您无法正确估计方差-协方差矩阵。因此，系数的标准误是错误的。这意味着无法计算任何 t 统计量和 p 值，因此无法进行假设检验。总体而言，在异方差下，OLS 失去了效率，不再是 BLUE。

然而，异方差性并不是世界末日。幸运的是，校正异方差性并不困难。三明治估计器允许您估计系数的一致标准误差。然而，通过三明治估计器计算标准误差是有代价的。估计器效率不高，标准误差可能非常大。获得部分效率的一种方法是在可能的情况下对标准错误进行聚类。

您可以在我上面提到的网站上找到有关此主题的更多详细信息。

没有同方差性可能会给出不可靠的参数标准误差估计。参数估计是无偏的。但估计可能效率不高（不是蓝色）。您可以在以下链接中找到更多信息

请记住，具有无偏估计量并不意味着该模型是“正确的”。在许多情况下，回归系数估计的最小二乘标准会产生一个模型，该模型要么具有（1）没有正确含义的回归系数，要么（2）倾向于最小化大误差但弥补了它有许多小错误。例如，一些分析师认为，即使转型为 $\log(Y)$ 使模型拟合得很好预测是有效的 $Y$ 使用 OLS，因为估计是无偏的。这将最小化平方误差的总和，但将影响划分为 $\beta$ s 错误并导致绝对错误的非竞争性总和。有时，缺乏方差恒定性表明存在更基本的建模问题。

在查看竞争模型时（例如，对于 $Y$ 对比 $\log(Y)$ 与序数回归）我喜欢使用未通过拟合过程定义优化的度量来比较预测准确性。

其它你可能感兴趣的问题

上一篇如何计算加权标准差？在 Excel 中？下一篇计算 R 中的转移矩阵（马尔可夫）