线性模型中因变量的异方差性和分布

机器算法验证 混合模式 异方差 正态假设 多元回归 分位数回归
2022-04-07 15:37:15

我正在运行一个多元 ols 模型,其中我的因变量是Food Consumption Score,这是一个由某些给定食品类别的消费事件的加权总和创建的指数。

尽管我尝试了模型的不同规格,对预测变量进行了缩放和/或对数变换,但Breusch-Pagan 检验始终检测到强烈的异方差性。

  1. 我排除了遗漏变量的常见原因;
  2. 不存在异常值,尤其是在对数缩放和归一化之后;
  3. 我使用通过应用 Polychoric PCA 创建的 3/4 索引,但是即使从 OLS 中排除部分或全部索引也不会改变 Breusch-Pagan 输出。
  4. 模型中只使用了几个(通常的)虚拟变量:性别、婚姻状况;
  5. 我检测到样本区域之间发生的高度变化,尽管通过包含每个区域的虚拟变量进行控制,并且在 adj-R^2 方面获得了 20% 以上,即异方差。
  6. 样本有 20,000 个观测值。

我认为问题在于我的因变量的分布。据我所知,正态分布是我的数据实际分布的最佳近似值(可能不够接近)我在这里分别附上两个 qq 图,因变量归一化和对数变换(红色正常理论分位数)。

  1. 鉴于我的变量的分布,异方差性可能是由因变量的非正态性引起的(这会导致模型误差的非正态性吗?)
  2. 我应该转换因变量吗?我应该应用 glm 模型吗?-我尝试过使用 glm,但在 BP 测试输出方面没有任何改变。
  3. 我是否有更有效的方法来控制组间变异并消除异方差(随机截距混合模型)?

    在此处输入图像描述 在此处输入图像描述 先感谢您。

编辑 1: 我查看了食品消费评分的技术手册,据报道,该指标通常遵循“接近正态”分布。事实上,夏皮罗-威尔克检验拒绝了我的变量是正态分布的零假设(我已经能够在前 5000 个 obs 上运行测试)。我从拟合残差的图中可以看出,对于较低的拟合值,误差的可变性会降低。我在下面附上情节。该图来自线性混合模型,准确地说是考虑到 398 个不同组的随机截距模型(相关系数 = 0.32,组的平均依赖不小于 0.80)。尽管我已经考虑了组间变异性,但异方差性仍然存在。

我还运行了各种分位数回归。我对 0.25 分位数的回归特别感兴趣,但是在误差的等方差方面没有任何改进。

我现在正在考虑通过拟合随机截距分位数回归来同时考虑分位数和组(地理区域)之间的多样性。可能是个好主意?

此外,泊松分布看起来像遵循我的数据的趋势,即使对于变量的低值,它也会漂移一点(比正常值少一点)。然而,问题是泊松族的拟合 glm 需要正整数,我的变量是正数但不完全是整数。因此,我放弃了 glm(或 glmm)选项。

在此处输入图像描述 编辑2:

您的大多数建议都指向稳健的估计器。但是,我认为这只是解决方案之一。了解我的数据中异方差的原因将提高对我想要建模的关系的理解。很明显,误差分布的底部发生了一些事情——看看这个来自 OLS 规范的残差 qqplot。

您对如何进一步处理这个问题有任何想法吗?我应该使用分位数回归进行更多调查吗?

在此处输入图像描述 问题解决了 ?

根据您的建议,我终于运行了一个随机截距模型,将技术问题与我的研究领域的理论联系起来。我发现一个变量,如果包含在模型的随机部分中,会使误差项变为同方差。在这里,我发布了 3 个图:

  1. 第一个是根据具有 34 个组(省)的随机截取模型计算得出的
  2. 第二个来自34组(省)的随机系数模型
  3. 最后第三个是398个组(区)的随机系数模型的估计结果。

我可以肯定地说我在最后一个规范中控制异方差吗?

随机截距 M。 随机系数。 M.(34组 随机系数。 M(398组

1个回答

这是上述问题的解决方案:

简而言之,就我而言,异方差至少是由两个不同的来源引起的:

  1. OLS和所有“单级”回归模型家族难以解释的组差异;
  2. 模型函数形式的错误说明:更详细(如@Robert Long 首先建议的那样)DV 和协变量之间的关系不是线性的。

对于导致异方差的组差异,对单个组的截断数据进行分析非常有帮助,并且从 BP 测试中承认,当单独考虑时,几乎所有组中的异方差都消失了。

通过拟合随机截距模型,误差结构得到了改善,但正如评论者所指出的,仍然可以检测到上述异方差性。即使在方程的随机部分中加入了一个能够进一步改善误差结构的变量,也不能认为该问题已解决。(这个关键变量,应对策略,很好地描述了家庭在食物短缺的情况下的习惯,事实上这些习惯通常在不同的地理区域和种族之间差异很大。)

这是第二点,也是最重要的。DV(原来如此)和协变量之间的关系不是线性的。

在这个阶段有更多的选择:

  1. 使用非线性模型明确考虑问题;
  2. 变换 DV,如果你能找到合适的变换。在我的例子中,DV 的平方根。
  3. 尝试使用不对误差项(glm 系列)的分布做出任何假设的模型。

在我看来,第一个选项使系数的解释有点复杂(这是一个个人项目相关的观察,只是因为我想让这篇文章保持简单),至少从我(最近)的经验来看,需要更多的计算能力对于具有许多随机系数和观察值的复杂模型可能会使 R 崩溃。

改造DV肯定是最好的解决方案,如果它有效并且你比我幸运的话。我是什么意思?如果是对数转换的 DV,则解释是百分比,但是平方根转换呢?如何将我的结果与其他研究进行比较?也许转换变量的标准化可以帮助解释 z 分数中的结果。在我看来只是太多了。

关于 glm 或 glmm 模型我不能说太多,在我的情况下,这些都不起作用,glm 没有正确解释组之间的随机差异,并且 glmm 的输出报告了收敛问题。

请注意,对于我的模型,出于与上述 glm 相同的原因,DV 的转换也不适用于 OLS。

但是,至少还有一个选择:为回归分配权重,以便在不转换 DV 的情况下纠正异方差。尔格:系数的简单解释。

这是在随机系数模型中使用未变换的 DV 时,用 DV_sqrt 加权获得的结果。

在这个阶段,我可以将我的系数的标准误差与稳健估计器的对应值进行比较。

在此处输入图像描述

关于在我的情况下直接使用稳健的估计器而不试图理解问题的根源,我想建议阅读:G. King,ME Roberts(2014),“稳健的标准错误如何暴露他们无法解决的方法问题,以及如何处理”。