非正态因变量的稳健回归或方差分析

机器算法验证 强大的
2022-04-10 13:18:08

我有一个数据集,其因变量的范围从 0 到 100(n=198)。问题是许多科目 (25) 的得分正好为 100,但低于 100 的每个分数只能达到一次。

正如您在以下链接中看到的那样,这会扭曲直方图:

在此处输入图像描述

我正在尝试运行方差分析(使用两个对比编码预测变量进行回归)和交互。

交互作用不显着,但我想知道它可能是由因变量的非正态性引起的。

是否有任何可靠的方法来避免这个问题?

3个回答

首先是评论:“稳健”通常是指防止异常值和违反分布假设的方法。在您的情况下,问题显然违反了分布假设,但它似乎取决于您的 DV(双关语对不起)。

使用哪种方法取决于 100 是否“真正”是您的 DV 的最高可能值,或者您的 DV 是否测量了一个未观察到的变量,该变量具有潜在分布,可能具有无限值。

对于“潜在变量”概念的说明:在认知测试中,您想测量“智力”,但您只观察某人是否解决了问题。因此,如果某些人解决了所有问题,您不知道这些人是否都具有相同的智力,或者他们的智力分数是否仍然存在一些差异。

如果你的 DV 是第二种,你可以使用tobit regression

如果你的DV真的是第一类,那就更难了,也就是说,如果100真的是可以测量的最高分。

顺便说一句,即使使用“正确”的方法,您最终仍可能会遇到无关紧要的交互。

基于等级的测试通过将数据转换为均匀分布,然后依靠中心极限定理来证明近似正态性(在 n = 5 或 6 附近的均匀分布),这有助于抵消偏度或异常值的影响。您的数据有相反的问题,等级转换不太可能有帮助(100 仍然是等级中的领带)。对于您的样本量和对数据的限制,由于 clt. 如果某些组合只有 100 个或大部分是 100 个,我会更关心不等方差。

如果你真的想要你可以做一个permutation test,但我怀疑它会告诉你比你已经做过的更多的事情,可能使用一些基于中位数而不是 F-stat 的统计数据可能会有所帮助。

不知道数据真的是关于它很难说。一种可能的非常通用的解决方案是认为 100 并不是真正的 100(有时)。怎么办是你需要解决的。你需要想出一个模型来说明其他值 100 是什么。有些人会想要选择 1000 个吗?110?99.9?还是只是一个垃圾答案?如果你能解决这个问题,那么你可以丢弃数据或在日志或线性空间中对其进行抖动。您可以在 100 中添加随机噪声并重复执行,看看结果是否在您的条件下仍然相对一致。

但是如果没有更多信息,就很难提供帮助。我希望我给了你一些思考的东西。