我正在运行一个多元 ols 模型,其中我的因变量是Food Consumption Score,这是一个由某些给定食品类别的消费事件的加权总和创建的指数。
尽管我尝试了模型的不同规格,对预测变量进行了缩放和/或对数变换,但Breusch-Pagan 检验始终检测到强烈的异方差性。
- 我排除了遗漏变量的常见原因;
- 不存在异常值,尤其是在对数缩放和归一化之后;
- 我使用通过应用 Polychoric PCA 创建的 3/4 索引,但是即使从 OLS 中排除部分或全部索引也不会改变 Breusch-Pagan 输出。
- 模型中只使用了几个(通常的)虚拟变量:性别、婚姻状况;
- 我检测到样本区域之间发生的高度变化,尽管通过包含每个区域的虚拟变量进行控制,并且在 adj-R^2 方面获得了 20% 以上,即异方差。
- 样本有 20,000 个观测值。
我认为问题在于我的因变量的分布。据我所知,正态分布是我的数据实际分布的最佳近似值(可能不够接近)我在这里分别附上两个 qq 图,因变量归一化和对数变换(红色正常理论分位数)。
- 鉴于我的变量的分布,异方差性可能是由因变量的非正态性引起的(这会导致模型误差的非正态性吗?)
- 我应该转换因变量吗?我应该应用 glm 模型吗?-我尝试过使用 glm,但在 BP 测试输出方面没有任何改变。
我是否有更有效的方法来控制组间变异并消除异方差(随机截距混合模型)?
编辑 1: 我查看了食品消费评分的技术手册,据报道,该指标通常遵循“接近正态”分布。事实上,夏皮罗-威尔克检验拒绝了我的变量是正态分布的零假设(我已经能够在前 5000 个 obs 上运行测试)。我从拟合残差的图中可以看出,对于较低的拟合值,误差的可变性会降低。我在下面附上情节。该图来自线性混合模型,准确地说是考虑到 398 个不同组的随机截距模型(相关系数 = 0.32,组的平均依赖不小于 0.80)。尽管我已经考虑了组间变异性,但异方差性仍然存在。
我还运行了各种分位数回归。我对 0.25 分位数的回归特别感兴趣,但是在误差的等方差方面没有任何改进。
我现在正在考虑通过拟合随机截距分位数回归来同时考虑分位数和组(地理区域)之间的多样性。可能是个好主意?
此外,泊松分布看起来像遵循我的数据的趋势,即使对于变量的低值,它也会漂移一点(比正常值少一点)。然而,问题是泊松族的拟合 glm 需要正整数,我的变量是正数但不完全是整数。因此,我放弃了 glm(或 glmm)选项。
您的大多数建议都指向稳健的估计器。但是,我认为这只是解决方案之一。了解我的数据中异方差的原因将提高对我想要建模的关系的理解。很明显,误差分布的底部发生了一些事情——看看这个来自 OLS 规范的残差 qqplot。
您对如何进一步处理这个问题有任何想法吗?我应该使用分位数回归进行更多调查吗?
根据您的建议,我终于运行了一个随机截距模型,将技术问题与我的研究领域的理论联系起来。我发现一个变量,如果包含在模型的随机部分中,会使误差项变为同方差。在这里,我发布了 3 个图:
- 第一个是根据具有 34 个组(省)的随机截取模型计算得出的
- 第二个来自34组(省)的随机系数模型
- 最后第三个是398个组(区)的随机系数模型的估计结果。
我可以肯定地说我在最后一个规范中控制异方差吗?