为什么我们不必如此关心线性回归中的正态分布误差项(和同方差性)?

机器算法验证 回归 假设 正态假设 强大的 教学
2022-01-30 07:50:19

我想每次听到有人说残差的非正态性和/或异方差违反 OLS 假设时,我都会感到沮丧。估计OLS 模型中的参数,这些假设都不是高斯-马尔可夫定理所必需的。我在 OLS 模型的假设检验中看到了这一点的重要性,因为假设这些东西为我们提供了 t 检验、F 检验和更一般的 Wald 统计数据的简洁公式。

但是没有它们进行假设检验并不难。如果我们只放弃同方差性,我们可以轻松计算稳健的标准误和聚集的标准误。如果我们完全放弃正态性,我们可以使用自举,并且给定误差项、似然比和拉格朗日乘数检验的另一个参数规范。

我们以这种方式教授它只是一种耻辱,因为我看到很多人都在为他们一开始就不必满足的假设而苦苦挣扎。

当我们有能力轻松应用更强大的技术时,为什么还要如此强调这些假设?我错过了什么重要的东西吗?

3个回答

在计量经济学中,我们会说非正态性违反了经典正态线性回归模型的条件,而异方差违反了 CNLR 和经典线性回归模型的假设。

但是那些说“......违反 OLS”的人也是有道理的:普通最小二乘这个名字直接来自高斯,本质上是指正常错误。换句话说,“OLS”不是最小二乘估计(这是一种更通用的原则和方法)的首字母缩写词,而是 CNLR 的首字母缩写词。

好的,这是历史、术语和语义。我理解 OP 问题的核心如下:“如果我们已经找到了不存在的情况的解决方案,我们为什么要强调理想?” (因为 CNLR 假设理想的,从某种意义上说,它们提供了“现成的”出色的最小二乘估计属性,并且无需求助于渐近结果。还请记住,当错误正常时,OLS 是最大似然)。

作为一个理想,这是一个开始教学的好地方。这就是我们在教授任何类型的学科时总是这样做的:“简单”的情况是“理想的”情况,没有人们在现实生活和实际研究中实际遇到的复杂性,也没有明确的解决方案

这就是我发现 OP 的帖子有问题的地方:他写了关于稳健标准错误和引导程序的文章,就好像它们是“优越的替代品”,或者是针对缺乏正在讨论的上述假设的万无一失的解决方案,此外 OP 写道

“..人们不必满足的假设”

为什么?因为有一些处理情况的方法,方法当然有一定的有效性,但还远非理想?自举和异方差稳健标准误差不是解决方案——如果它们确实是,它们将成为主导范式,将 CLR 和 CNLR 送入历史书。但他们不是。

因此,我们从保证那些我们认为重要的估计器属性的假设开始(这是另一个讨论指定为可取的属性是否确实应该是的),以便我们保持可见,任何违反它们的行为都有无法通过我们为处理这些假设的缺失而找到的方法完全抵消的后果。从科学的角度来说,传达“我们可以引导自己找到事情真相”的感觉真的很危险——因为,简单地说,我们做不到。

因此,它们仍然是问题的不完美解决方案,而不是替代和/或绝对优越的做事方式。因此,我们要先教无问题的情况,然后指出可能的问题,然后讨论可能的解决方案。否则,我们会将这些解决方案提升到它们实际上并不具备的状态。

如果我们有时间在课堂上首先介绍回归模型来讨论自举和你提到的其他技术(包括他们所有的假设、陷阱等),那么我同意你的观点,没有必要谈论正态性和同方差性假设。但事实上,当第一次引入回归时,我们没有时间谈论所有其他事情,所以我们宁愿让学生保守一些,检查可能不需要的事情并咨询统计学家(或获取其他统计数据)类或 2 或 3,...) 当假设不成立时。

如果你告诉学生这些假设不重要,除非...,那么大多数人只会记住无关紧要的部分,而不是重要的部分。

如果我们有一个方差不等的情况,那么是的,我们仍然可以拟合最小二乘线,但它仍然是“最佳”线吗?或者最好咨询具有更多经验/培训的人如何在这种情况下适合线条。即使我们对最小二乘线感到满意,我们难道不应该承认预测对于不同的预测变量值会有不同的属性吗?因此,检查不等方差对于以后的解释很有用,即使我们不需要它来进行测试/间隔/等。我们正在使用的。

1)很少有人只想估计。通常推理——CI、PI、测试——是目标,或者至少是目标的一部分(即使有时它是相对非正式地完成的)

2)像高斯马尔可夫定理之类的东西不一定有多大帮助——如果分布与正态分布足够远,那么线性估计器就没有多大用处。如果没有非常好的线性估计器,那么获得 BLUE 是没有意义的。

3)像三明治估计器这样的东西涉及大量的隐式参数。如果您有大量数据,它可能仍然可以,但很多时候人们没有。

4) 预测区间依赖于条件分布的形状,包括很好地处理观察时的方差——你不能轻易地用 PI 挥舞细节。

5) 对于非常大的样本,诸如自举之类的东西通常很方便。他们有时在小样本中挣扎——即使在中等大小的样本中,我们经常发现实际的覆盖属性与广告完全不同。

也就是说——很少有事情是人们希望他们成为的灵丹妙药。所有这些事情都有它们的位置,并且肯定有很多情况不需要(比如说)正态性并且可以合理地进行估计和推理(测试和 CI),而不必一定需要正态性、恒定方差等。

似乎经常被遗忘的一件事是可以替代的其他参数假设。通常人们对某种情况了解得足够多,可以做出相当不错的参数假设(例如,假设条件响应将倾向于右偏,sd 与平均值几乎成正比,这可能导致我们考虑使用伽玛或对数正态模型);通常这可以一次性处理异方差和非正态性。

一个非常有用的工具是模拟——有了它,我们可以在与我们的数据可能来自的情况非常相似的情况下检查工具的属性,因此要么在令人欣慰的情况下使用它们,即它们在这些情况下具有良好的属性(或者,有时,看到它们没有像我们希望的那样工作)。