关于简单线性回归中的误差项的问题

机器算法验证 回归 线性模型 计量经济学
2022-04-04 11:54:26

假设我们有一个线性回归模型一世=β0+β1X一世+ε一世, 很多时候在文学作品中假定ε一世ñ(0,σ2).如果由于中心极限定理我们有一个大数据集,这个假设是有意义的。我的问题是,在某些情况下,我认为正态分布的误差项是错误的假设。认为一世是一个有界变量,例如一个人的年龄,或者一个学生的考试成绩。那么如果ε一世ñ(0,σ2)在这种情况下一世是有界的,误差项不可能是这样的吗?一世超出范围?例如假设一世代表一个人的年龄,如果误差项是正态分布的,那么可能会发生随机事件,所以一个人有可能活到 1000 年?

因此,当线性方程左侧的因变量有界时,我们如何用误差项解决这个问题。我们可以为误差项选择另一个有界分布,例如在一世. 然而,这是不现实的,因为这意味着误差项中的所有事件都同样可能发生。我对这里的人们对这个问题的想法很感兴趣。

编辑:通过阅读下面的所有精彩答案和评论,这就是我要说的。将有界域分布强加于ε一世?例如,特定域上的三角形密度一世是在。施加这些具有有界域并类似于正态分布的分布类型有什么缺点吗?

3个回答

您似乎对样本量与 CLT 应用程序的关系感到困惑。的分布ε一世与样本量无关。我假设下标一世指主语(人),和一个下标指观察的时间。

在一个简单的线性回归中,我们不会做很多假设ε估计β一世. 错误不一定是正常的,随着样本量的增加,它们不会趋于正常。

CLT 以两种不同的方式应用:

  • 当样本量增加时,估计的分布β一世这通常表示为β^一世会趋于正常,即β^一世ñ(0,σβ), 在哪里σβ是一个函数σ. 同样,我们不需要ε一世ñ(0,σ),我们只需要v一个r[ε一世]=σ为了这。这是线性回归的大样本属性之一。
  • 很多时候,当我们处理物理实验时,人们可能会争辩说有很多错误来源,当它们加起来时,就会产生ε一世- 单个观察噪声 - 正态分布。这与样本量无关,这只是影响单个观察的误差来源。在这种情况下,我们通常会做出合理的假设ε一世ñ(0,σ)

根据响应变量的性质,我建议检查 GLM 或 Tobit 模型。GLM 用于当响应不正常时(例如计数),以及 Tobit 如果它可能是正常的,除非它被审查(例如负收入报告为零)。

如果您有一个大数据集,中心极限定理并不意味着错误是正常的。CLT 适用于随机变量的总和(在其他特定条件下)。

正如另一张海报所说,您可能会查看允许非正态误差分布的广义线性模型。

但是,请注意,线性回归不需要正态分布的误差。无论分布如何,最小二乘估计器都是高斯-马尔可夫定理的最佳线性无偏估计器 (BLUE) 。它们只需要不相关并且具有相同的方差。

仅当您想声称最小二乘估计也是最大似然估计时才需要正态分布。