我已经知道使用线性回归模型时有几个假设。但我不明白为什么其中一些存在。他们是:
- 独立错误
- 误差的正态分布
- 同方差
为什么我不能在没有这些假设的情况下简单地使用最小二乘法?
如果某些假设无效,我想知道它如何影响、斜率和 p 值。例如:“如果独立误差假设为假,则 p 值小于其真实值。”
我已经知道使用线性回归模型时有几个假设。但我不明白为什么其中一些存在。他们是:
为什么我不能在没有这些假设的情况下简单地使用最小二乘法?
如果某些假设无效,我想知道它如何影响、斜率和 p 值。例如:“如果独立误差假设为假,则 p 值小于其真实值。”
为什么我不能在没有这些假设的情况下简单地使用最小二乘法?
你可以。
然而,推断——例如标准误差、置信区间和 p 值的计算——依赖于这些假设。
您可以在没有他们持有的情况下计算最小二乘线......这不一定是最好的事情。
您可以打破这些假设中的每一个,并得出比最小二乘法更有意义的其他东西。
例如,依赖可能会导致您使用 ARIMA 模型或混合效应模型(例如)
非正常错误可能会导致您进入 GLM(或许多其他事情)
异方差可能会导致您使用 GLM、加权回归或异方差一致推理
至于他们来自哪里——
独立性假设基本上是在许多情况下大致成立的东西,并且假设完全独立会使生活(更)容易。
在某些情况下,正态性是误差的一个很好的近似值(例如,如果您有许多小的、独立的误差源,其中没有一个占主导地位,例如,整体误差将趋于近似正常),并且再次使生活更轻松(最小二乘是最大值那里的可能性)。
高斯-马尔可夫定理是相关的,并且 - 至少对于并非所有线性估计量都不好的情况 - 鼓励我们在这些假设不全部成立时考虑它。
当你把这三者放在一起时,上面提到的推理就变得很容易处理了。有时,这些假设是合理的。
如果样本量很大并且没有任何点具有过度影响,那么正态性可能是最不重要的;推理方面,只要您不尝试构建预测区间,您就可以非常愉快地处理一些非正态性。
从历史上讲,您可能会发现:
http://en.wikipedia.org/wiki/Least_squares#History
也许这很有趣(如果您可以访问它)。
---
编辑:
如果某些假设无效,斜率、p 值或 R2 是否仍然有效
我将不得不对您所说的“有效”做出一些假设
关于OLS的维基百科文章在第二段中提到了一些关于一致性和最优性的细节。稍后在同一篇文章中,它讨论了各种假设及其违反情况。
本文讨论了各种条件下最小二乘斜率估计的一致性,但如果您不了解不同类型收敛之间的差异等信息,它可能无济于事。
有关违反等方差假设的影响,请参见此处。
p 值的分布依赖于所有假设,但是随着样本量变得非常大(在某些情况下我不打算在这里发表文章),当错误不是时,CLT 会为您提供参数估计的正态性普通的; 因此,如果样本相当大,特别是轻微的非正态性不一定会成为问题。p 值确实依赖于等方差假设(参见上面关于异方差的链接)和独立性假设。
在上- 如果您将视为估计总体数量,那么基于方差它会受到违反等方差和独立性假设的严重影响。另一方面,通常不是一个特别重要的量。
---
主要编辑2:
对不起,不清楚的问题。我想知道一些结论,例如“如果独立误差假设为假,则 p 值小于其真实值”。或者这种结论是否存在
打破独立性的问题在于,误差可以通过无数种方式依赖,并且对 p 值等事物的影响方向可能很复杂。除非域受到某种限制,否则没有单一的简单规则。如果你指定特定的依赖形式和方向,一些结论是可能的。
例如,当误差为正自相关时,回归斜率标准误差趋于减小,使 t 比偏离 0,因此 p 值更低(更显着)。
同样,异方差的影响方向取决于偏离性质的具体细节。
如果您对假设有特定的偏差,您可以通过使用模拟非常容易地研究对方差/标准误差的影响,从而研究对 p 值和等事物的影响(尽管在许多情况下,您也可以获得代数的公平方式)。
(作为一般建议,您可能会注意到您的许多问题已在维基百科的相关统计文章中得到直接回答。值得您花时间阅读这些文章以及它们链接到的一些文章。)