我进行了线性回归。下图显示了响应变量的分布:
我相信响应变量是 beta 分布的,因此实际上与正态分布完全相反。但是,当在线性回归中包含我的所有预测变量时,残差结果是非常正态分布的,如下图所示:
我的模型是否满足线性回归的假设?可能有更好的模型可以使用吗?
我进行了线性回归。下图显示了响应变量的分布:
我相信响应变量是 beta 分布的,因此实际上与正态分布完全相反。但是,当在线性回归中包含我的所有预测变量时,残差结果是非常正态分布的,如下图所示:
我的模型是否满足线性回归的假设?可能有更好的模型可以使用吗?
响应的分布无关紧要。基于小样本的推断要求误差接近正态(最好查看残差的 QQ 图而不是其密度,因为尾部很重要)。如果您只对描述性结果感兴趣,或者样本量不是太小,则无需担心正态性。
更重要的是线性回归的其他假设(正确的模型结构,预测变量中没有大的异常值,如果您对推理感兴趣,还有同方差和不相关的错误)。
如果要按面值获取密度图,则您的分布不是 beta。beta 分布不能在 (0, 1) 内有两种模式。但是,除非估计包括对边界伪影的调整,否则不能以面值获取有界变量的密度图(此处根据某些核密度估计程序的猜测),这不是典型的。但是,事实上,我们明白你的意思。
但是,要关注主要问题:
回归首先是变量均值的模型,因为它随预测变量而变化。即使做出了正态错误的假设,这也不是关于响应的边际分布的假设,而是正在做出的最不重要的假设。因此,如果函数形式符合条件均值的行为方式,那么从残差分布中可以推断出您的回归表现得相当好也就不足为奇了。
如果您向我们展示正态概率图,则正态性的断言更有说服力。在我看来,该分布的峰度高于正常值,尽管这可能有点小问题。
您需要检查您的模型是否在 [0,1] 内预测值。您的一些残差的大小约为 0.7,因此某些预测似乎有可能在质量上是错误的。
同时,您应该能够通过尊重响应的有界性质的回归做得更好。您可以尝试 beta 回归或具有二项式族和 logit 链接的广义线性模型。后者听起来不对,但在实践中通常效果很好。有关简明的介绍性评论,请参阅http://www.stata-journal.com/sjpdf.html?articlenum=st0147 R 和 Stata 支持 Beta 回归(可能在其他软件中也是如此),并且广泛支持广义线性模型,尽管如果请求 logit 链接,请注意拒绝非二进制响应的例程。
注意:响应的密度图的确切形式是一个附带问题,因此我将对此进行补充说明。很明显,以 0 和 1 为界的变量的密度必须平均为 1。您的图表在 1 处有一个有用的参考线密度。在视觉上比较左侧 1 上方的凸起与其右侧区域强调了一些密度具有被超出支持的程序平滑并丢弃。也就是说,显示的图形截断了显示:平滑分布具有低于 0 或高于 1 的正密度,未显示。有一些已知的方法可以更尊重地平滑有界变量,在这种情况下,包括 (a) 平滑变量的 logit 并反向变换密度(如果观察值包括 0 或 1,则有点问题),或 (b) 反映在极端向内密度。自然,一方面这是微不足道的还是次要的,另一方面是不正确的,存在分歧的余地。(我宁愿看到数据的分位数图,但我不会对此进行扩展。)
严格来说,残差假设的正态性并不是 OLS 工作所必需的,它成为一个问题,尤其是在假设检验中。由于您的残差实际上似乎是正态分布的,因此即使在该区域也可以。此外,OLS 不对变量的分布做任何假设,因此您不必担心这一点。
尽管其他答案已经解决了这个问题,但我想添加另一个强大的选项来解决与分布假设相关的大多数问题:分位数回归。
根据研究兴趣,这种方法可能非常强大。
正如有人之前已经说过的那样,如果您只是对估计结果的边际均值(或任何分位数)感兴趣,那么您根本不需要担心任何假设,因为分位数和普通回归方法都可以完美地估计它。
如果您对推理感兴趣,普通回归在分布假设方面存在一些问题,而分位数则没有,因为它是无分布的。的确,您可以尝试使用均值回归和稳健的估计量,但我个人更喜欢分位数回归,顺便说一下,它的信息量更大(因为您可以估计结果的整个条件分布,而不仅仅是它的一个汇总指标,意思是)。
如果您对预测和推理都感兴趣,那么分位数的不变性非常方便。例如,假设您正在处理概率或比率(或任何其他“有界”结果)。使用分位数回归,您可以转换结果 Y,使其转换不受限制(例如,使用 logit 或 probit 函数),对 logit(Y) 建模并使用相同的模型进行预测和推理。
使用普通方法并不容易,因为 Jensen 不等式:E(g(Y)) 永远不等于 g(E(Y))。
因此,您要么使用两个模型(一个用于预测,一个用于关联),要么必须使用其他方法(beta 回归、logit 正态回归),但是这些模型分别存在与参数解释和分布假设相关的问题。
最后,总是存在与线性假设或独立数据相关的问题。在前者中,我们可以通过添加样条来解决问题(不过,这会使参数的解释复杂化)。
相反,对于后者,混合效应回归模型可以帮助我们(如果我们有分层或纵向数据)。