例如,考虑ChickWeight
R 中的数据集。方差显然会随着时间的推移而增长,所以如果我使用简单的线性回归,例如:
m <- lm(weight ~ Time*Diet, data=ChickWeight)
我的问题:
- 该模型的哪些方面会存在问题?
- 问题是否仅限于范围外的推断
Time
? - 线性回归对违反这一假设的容忍度如何(即,它必须具有多大的异方差性才能引起问题)?
例如,考虑ChickWeight
R 中的数据集。方差显然会随着时间的推移而增长,所以如果我使用简单的线性回归,例如:
m <- lm(weight ~ Time*Diet, data=ChickWeight)
我的问题:
Time
?在这种情况下,线性模型(或“普通最小二乘法”)仍然具有其无偏性。
面对错误术语中的异方差性,您仍然有无偏的参数估计,但您在协方差矩阵上松了:您的推断(即参数测试)可能是错误的。常见的解决方法是使用一种稳健的方法来计算协方差矩阵,即标准误差。您使用哪一个在某种程度上取决于域,但 White 的方法是一个开始。
为了完整性,误差项的序列相关性更差,因为它会导致参数估计有偏差。
同方差性是 OLS 成为最佳线性无偏估计量 (BLUE) 所需的高斯马尔可夫假设之一。
高斯-马尔可夫定理告诉我们系数的最小二乘估计是无偏的,并且在所有无偏线性估计器中具有最小方差,因为我们满足所有高斯-马尔可夫假设。您可以在此处找到有关高斯-马尔可夫定理的更多信息,包括该定理的数学证明。此外,您可以在此处找到 OLS 假设的完整列表,包括对违反它们时会发生什么的解释。
简要总结上述网站的信息,异方差性不会在您的系数估计中引入偏差。但是,鉴于异方差性,您无法正确估计方差-协方差矩阵。因此,系数的标准误是错误的。这意味着无法计算任何 t 统计量和 p 值,因此无法进行假设检验。总体而言,在异方差下,OLS 失去了效率,不再是 BLUE。
然而,异方差性并不是世界末日。幸运的是,校正异方差性并不困难。三明治估计器允许您估计系数的一致标准误差。然而,通过三明治估计器计算标准误差是有代价的。估计器效率不高,标准误差可能非常大。获得部分效率的一种方法是在可能的情况下对标准错误进行聚类。
您可以在我上面提到的网站上找到有关此主题的更多详细信息。
没有同方差性可能会给出不可靠的参数标准误差估计。参数估计是无偏的。但估计可能效率不高(不是蓝色)。您可以在以下链接中找到更多信息
请记住,具有无偏估计量并不意味着该模型是“正确的”。在许多情况下,回归系数估计的最小二乘标准会产生一个模型,该模型要么具有(1)没有正确含义的回归系数,要么(2)倾向于最小化大误差但弥补了它有许多小错误。例如,一些分析师认为,即使转型为使模型拟合得很好预测是有效的使用 OLS,因为估计是无偏的。这将最小化平方误差的总和,但将影响划分为s 错误并导致绝对错误的非竞争性总和。有时,缺乏方差恒定性表明存在更基本的建模问题。
在查看竞争模型时(例如,对于对比与序数回归)我喜欢使用未通过拟合过程定义优化的度量来比较预测准确性。