很难比其他帖子所说的更清楚。尽管如此,我还是会尝试说一些针对 OLS 所需的不同假设和其他各种适合使用的估计技术的假设。
OLS 估计:这适用于简单线性回归和多重回归,其中常见假设是 (1) 模型在预测变量的系数中是线性的,具有附加随机误差项 (2) 随机误差项是 (a) 正态分布均值为 0 且 (b) 方差不会随着预测变量协变量(即 IV)的值变化而变化,还要注意,在适用于简单回归和多元回归的这个框架中,假设协变量是已知的,没有任何给定值的不确定性。当 A) 仅 (1) 与 2(b) 或 B) (1) 和 (2) 均保持时,可以使用 OLS。
如果 B) 可以假设 OLS 具有一些很好的特性,使其具有吸引力。(I) 无偏估计量之间的最小方差 (II) 最大似然 (III) 在某些规则条件下的一致和渐近正态性和效率
在 B) 下,OLS 可用于估计和预测,并且可以为拟合值和预测生成置信区间和预测区间。
如果只有 A) 成立,我们仍然拥有财产 (I) 但没有财产 (II) 或 (III)。如果您的目标是拟合模型,并且您不需要给定协变量的响应的置信区间或预测区间,并且您不需要回归参数的置信区间,则可以在 A) 下使用 OLS。但是您不能使用经常使用的 t 检验来检验模型中系数的显着性,也不能将 F 检验用于整体模型拟合或用于方差相等的检验。但是高斯-马尔可夫定理告诉你我仍然拥有这个性质。然而,在情况 A) 中,因为 (II) 和 (III) 不再具有其他更稳健的估计程序,即使它们不是无偏的,它们也可能比最小二乘法更好。当错误分布很重并且您在数据中看到异常值时尤其如此。
使用 OLS 还会出现什么问题?
误差方差不均匀意味着加权最小二乘法可能比 OLS 更可取。
预测变量之间的高度共线性意味着要么应该删除一些预测变量,要么应该使用其他估计程序,例如岭回归。当存在高度多重共线性时,OLS 估计系数可能非常不稳定。
如果观察到协变量有误差(例如测量误差),则违反了给出协变量没有误差的模型假设。这对 OLS 不利,因为假设在协变量方向上无需担心错误,该标准会最小化响应变量方向上的残差。这称为变量误差问题,考虑协变量方向上的这些误差的解决方案会做得更好。变量误差(又名戴明)回归将考虑这些方差的比率的方向上的偏差平方和最小化。
这有点复杂,因为这些模型中涉及许多假设,并且目标在决定哪些假设对给定分析至关重要时发挥作用。但是,如果您一次只关注一个属性,以查看违反假设的后果,那么它可能就不那么令人困惑了。