观察到左偏态与对称分布

机器算法验证 回归 残差 偏度
2022-03-18 22:06:50

这对我来说很难描述,但我会尽量让我的问题可以理解。所以首先你必须知道到目前为止我已经做了一个非常简单的线性回归。在我估计系数之前,我观察了我的 y 的分布。左偏很重。在我估计模型之后,我很确定在 QQ 图中也观察到了左偏残差,但我绝对没有。这种解决方案的原因可能是什么?错误在哪里?或者分布 y 与误差项的分布无关?

2个回答

为了回答你的问题,让我们举一个非常简单的例子。简单回归模型由 yi=β0+β1xi+ϵi 给出,其中 ϵiN(0,σ2)现在假设 xi 是二分法。如果β1 不等于0,那么yi 的分布将不是正态分布,实际上是两种正态分布的混合,一个具有均值β0,一个具有均值β0+β1 .

如果β1 足够大并且σ2 足够小,那么yi 的直方图将看起来是双峰的。但是,也可以得到 yi 的直方图,它看起来像“单一”偏斜分布。这是一个示例(使用 R):

xi <- rbinom(10000, 1, .2)
yi <- 0 + 3 * xi + rnorm(10000, .7)
hist(yi, breaks=20)
qqnorm(yi); qqline(yi)

重要的不是 yi 的分布,而是误差项的分布。

res <- lm(yi ~ xi)
hist(resid(res), breaks=20)
qqnorm(resid(res)); qqline(resid(res))

这看起来很正常——不仅仅是形象地说=)

参考@Wolfgang 的出色回答,以下是他的 R 代码中的图表:

在此处输入图像描述