回归模型、普通最小二乘和多重回归模型需要哪些假设?

机器算法验证 回归 多重回归 最小二乘
2022-04-13 04:53:15

我查阅了各种书籍,对回归模型、普通最小二乘 (OLS) 和多重回归模型的假设有何不同感到困惑?

当我阅读更多关于它的内容时,我会变得更加困惑。有没有一种合理可理解的方式来解释这一点而不会令人困惑?

这些假设是否因客观(可能是预测或描述性的)而异?

什么是合理的假设清单

  1. 线性回归模型
  2. 简单的线性回归模型
  3. 多元线性回归模型
  4. 普通最小二乘 (OLS) 方法?

我还阅读了有关What are the Complete List....Assumption Needed for Multiple linear Regression的相关问题。但我仍然不清楚。

3个回答

很难比其他帖子所说的更清楚。尽管如此,我还是会尝试说一些针对 OLS 所需的不同假设和其他各种适合使用的估计技术的假设。

OLS 估计:这适用于简单线性回归和多重回归,其中常见假设是 (1) 模型在预测变量的系数中是线性的,具有附加随机误差项 (2) 随机误差项是 (a) 正态分布均值为 0 且 (b) 方差不会随着预测变量协变量(即 IV)的值变化而变化,还要注意,在适用于简单回归和多元回归的这个框架中,假设协变量是已知的,没有任何给定值的不确定性。当 A) 仅 (1) 与 2(b) 或 B) (1) 和 (2) 均保持时,可以使用 OLS。

如果 B) 可以假设 OLS 具有一些很好的特性,使其具有吸引力。(I) 无偏估计量之间的最小方差 (II) 最大似然 (III) 在某些规则条件下的一致和渐近正态性和效率

在 B) 下,OLS 可用于估计和预测,并且可以为拟合值和预测生成置信区间和预测区间。

如果只有 A) 成立,我们仍然拥有财产 (I) 但没有财产 (II) 或 (III)。如果您的目标是拟合模型,并且您不需要给定协变量的响应的置信区间或预测区间,并且您不需要回归参数的置信区间,则可以在 A) 下使用 OLS。但是您不能使用经常使用的 t 检验来检验模型中系数的显着性,也不能将 F 检验用于整体模型拟合或用于方差相等的检验。但是高斯-马尔可夫定理告诉你我仍然拥有这个性质。然而,在情况 A) 中,因为 (II) 和 (III) 不再具有其他更稳健的估计程序,即使它们不是无偏的,它们也可能比最小二乘法更好。当错误分布很重并且您在数据中看到异常值时尤其如此。

使用 OLS 还会出现什么问题?

误差方差不均匀意味着加权最小二乘法可能比 OLS 更可取。

预测变量之间的高度共线性意味着要么应该删除一些预测变量,要么应该使用其他估计程序,例如岭回归。当存在高度多重共线性时,OLS 估计系数可能非常不稳定。

如果观察到协变量有误差(例如测量误差),则违反了给出协变量没有误差的模型假设。这对 OLS 不利,因为假设在协变量方向上无需担心错误,该标准会最小化响应变量方向上的残差。这称为变量误差问题,考虑协变量方向上的这些误差的解决方案会做得更好。变量误差(又名戴明)回归将考虑这些方差的比率的方向上的偏差平方和最小化。

这有点复杂,因为这些模型中涉及许多假设,并且目标在决定哪些假设对给定分析至关重要时发挥作用。但是,如果您一次只关注一个属性,以查看违反假设的后果,那么它可能就不那么令人困惑了。

让我澄清你的问题:

首先,线性回归模型通常包括所有线性模型。通常,线性回归模型都是关于描述一个变量(依赖)与其他变量(独立)的关系。

其次,简单和多元回归模型只是指一个人在模型中使用的自变量的数量。我们有一个简单的回归模型,以防仅使用一个自变量。如果一个人使用多个自变量来描述一个因变量,而不是我们称之为多元回归。

最后,可以通过多种方式估计线性回归模型。最常见的技术是普通最小二乘法 (OLS)。OLS 方法通过最小化残差平方和来估计模型。它在概念上很简单,计算上也很简单。其他技术包括 ML 估计或贝叶斯回归。

这意味着,只有在我们知道我们使用什么估计技术来估计线性回归模型时,我们才能开始讨论必要的假设。您在问题中提到的唯一技术是普通最小二乘法。您可以在以下网站上找到对 OLS 的基本了解:

https://economictheoryblog.com/ordinary-least-squares-ols

该站点还提供了对 OLS 估计器假设的直观描述:

https://economictheoryblog.com/2015/04/01/ols_assumptions

统计模型 1-4 的假设没有差异。这些模型中的每一个都是 OLS 回归的一种形式。

假设是相同的。这些假设通常与中心极限定理有关。如果您的变量没有标准正态分布,那么您很可能有问题。

常见问题:异方差、多重共线性、自相关(时间序列)

这有助于回答您的问题吗?