异方差和非正态误差只是从线性模型预测时的一个问题——为什么?

机器算法验证 回归 线性模型 残差 异方差 正态假设
2022-03-23 03:50:51

回归和其他故事中,作者指出,异方差和非正态误差仅在从线性模型进行预测时才会出现问题(1;第 154-155 页):

  1. 误差的相等方差。当回归用于概率预测时,不等误差方差(也称为异方差,与等方差或同方差相反)可能是一个问题,但它不影响回归模型通常最重要的方面,即进入预测变量的信息以及它们如何组合。如果回归误差的方差不相等,则通过在模型中考虑这一点来更有效地进行估计,如第 10.8 节中讨论的加权最小二乘法。然而,在大多数情况下,这个问题是次要的。
  2. 错误的常态。在预测单个数据点时,误差项的分布是相关的。为了估计回归线(与预测单个数据点相比),正态性假设通常根本不重要。因此,我们不建议对回归残差的正态性进行诊断。例如,许多教科书推荐分位数-分位数 (QQ) 图,其中将有序残差与来自正态分布的有序抽取的相应预期值进行对比,该图与线性的偏离表明误差项的非正态性。制作这样的图并没有错,在评估使用模型预测单个数据点时它可能是相关的,但我们通常更关心有效性的假设,

我从上面的文字中的理解是,作者认为违反这些假设不是模型系数估计的问题。为什么违反这些假设只是一个预测问题?

交叉验证答案中讨论了非正常错误,但是我希望得到更多涉及基础数学或参考外部资源的答案。

参考:

  1. A. Gelman、J. Hill、A. Vehtari,回归和其他故事(剑桥大学出版社,2020 年)https://doi.org/10.1017/9781139161879。
1个回答

我怀疑格尔曼和希尔要么夸大了正常性是否是一个问题的情况,要么他们的评论断章取义。虽然线性(或更准确地说,正确的功能规范)通常更重要,但有些非正态性的情况确实应该引起人们的极大关注。这些包括:

  1. 极重尾分布。在这种情况下,您绝对不应该使用普通的最小二乘法来估计趋势,即使它是线性的。分位数回归是一个不错的选择。

  2. 二元或高度离散的因变量。在这种情况下,即使响应函数碰巧是线性的(在这种情况下不太可能),也会首选一些最大似然方法。

至于需要专门用于预测的正态性和同方差性(假设 OLS),假设您正在回归单个股票回报百分比(Y) 在标准普尔 500 指数回报 (X)。您想预测当市场下跌 1% 时您的回报会发生什么(即,当X=1)。在这种情况下,您知道您的Y是一个随机变量,有一定的分布。

现在,不假思索地应用 OLS 会给你(基本上)以下预测:Y将位于±3×rmse回归预测的概率约为 99.7%。

关于 OLS 的同方差性假设的问题是rmse,是对所有值的汇总估计X, 可能会高估或低估Y什么时候X=1,取决于异方差的性质。这会导致预测区间可能太宽或太窄。

OLS 的正态性假设的问题在于,如果收益分布是重尾分布(很可能是这样),则偶尔会有比条件均值的三个标准差远得多的收益。因此,就边界风险而言,通常的预测过于乐观。此外,如果收益的分布是不对称的,那么预测区间也应该是相应的不对称的。

另一个很好的例子是多项逻辑回归。Y是牙膏品牌的选择,和X是年龄。什么是预测Y什么时候X=50岁?它肯定不是 Crest、Colgate、Mr. Toms 等的平均值。预测是分布本身,它肯定不是正态分布。相反,它是所有品牌的简单离散概率分布。

回归最好理解为条件分布的模型Y, 给定X. 这种表示解决了 OLS 和 ML 之间的许多假设冲突;它无缝地导致可能性和贝叶斯;它将普通回归、异方差回归、ANOVA、泊松回归、多项逻辑回归、生存分析、分位数回归、神经网络回归、树回归等统统归为一类;它包括人们通常感兴趣的模型的平均部分作为特例。