样本同质性是回归分析的假设吗?

机器算法验证 回归 假设
2022-03-29 16:18:54

我假设回归分析假设样本是同质的(即,我认为我被教导的时间比我记得的要早)。如果不是,那么适当的做法是为样本中包含的不同组添加虚拟变量来编码,或者执行 ANCOVA 来测试组参数是否相等。忽略样本的异质性会使回归分析无效吗?

1个回答

在方程 epsilon_i满足以下条件的意义上,通常假设样本是同质的:ϵiyi=β0+β1x1+β2x2++ϵi

  1. 均值为零:所有E(ϵi)=0i
  2. 不相关: forCov(ϵi,ϵj)=0ij
  3. 都具有相同的方差:所有Cov(ϵi)=σ2i

这些被称为高斯-马尔可夫条件,并确保普通最小二乘估计器表现良好(无偏性,最佳线性无偏估计器......)。

请注意,即使您有来自不同组的观察结果,也可以满足这些条件。然而,通常情况并非如此。如果组之间的平均值存在差异,则违反了第一个和第二个条件。如果组内存在相关性,则违反第二个条件。如果组的方差不同,则违反第三组。

违反高斯-马尔可夫条件会导致各种问题。有关非恒定方差的一些后果,请参阅Wikipedia page on heteroscedasticity

当不满足第三个条件时,转换可能很有用,但如果不同的组导致条件一和条件二出现问题,添加组虚拟变量或使用 ANCOVA 似乎更合理。