机器算法验证 - 非正态因变量的稳健回归或方差分析 - 吾爱随笔录

非正态因变量的稳健回归或方差分析

机器算法验证强大的

2022-04-10 13:18:08

我有一个数据集，其因变量的范围从 0 到 100（n=198）。问题是许多科目 (25) 的得分正好为 100，但低于 100 的每个分数只能达到一次。

正如您在以下链接中看到的那样，这会扭曲直方图：

在此处输入图像描述

我正在尝试运行方差分析（使用两个对比编码预测变量进行回归）和交互。

交互作用不显着，但我想知道它可能是由因变量的非正态性引起的。

是否有任何可靠的方法来避免这个问题？

3个回答

首先是评论：“稳健”通常是指防止异常值和违反分布假设的方法。在您的情况下，问题显然违反了分布假设，但它似乎取决于您的 DV（双关语对不起）。

使用哪种方法取决于 100 是否“真正”是您的 DV 的最高可能值，或者您的 DV 是否测量了一个未观察到的变量，该变量具有潜在分布，可能具有无限值。

对于“潜在变量”概念的说明：在认知测试中，您想测量“智力”，但您只观察某人是否解决了问题。因此，如果某些人解决了所有问题，您不知道这些人是否都具有相同的智力，或者他们的智力分数是否仍然存在一些差异。

如果你的 DV 是第二种，你可以使用tobit regression。

如果你的DV真的是第一类，那就更难了，也就是说，如果100真的是可以测量的最高分。

顺便说一句，即使使用“正确”的方法，您最终仍可能会遇到无关紧要的交互。

基于等级的测试通过将数据转换为均匀分布，然后依靠中心极限定理来证明近似正态性（在 n = 5 或 6 附近的均匀分布），这有助于抵消偏度或异常值的影响。您的数据有相反的问题，等级转换不太可能有帮助（100 仍然是等级中的领带）。对于您的样本量和对数据的限制，由于 clt. 如果某些组合只有 100 个或大部分是 100 个，我会更关心不等方差。

如果你真的想要你可以做一个permutation test，但我怀疑它会告诉你比你已经做过的更多的事情，可能使用一些基于中位数而不是 F-stat 的统计数据可能会有所帮助。

不知道数据真的是关于它很难说。一种可能的非常通用的解决方案是认为 100 并不是真正的 100（有时）。怎么办是你需要解决的。你需要想出一个模型来说明其他值 100 是什么。有些人会想要选择 1000 个吗？110？99.9？还是只是一个垃圾答案？如果你能解决这个问题，那么你可以丢弃数据或在日志或线性空间中对其进行抖动。您可以在 100 中添加随机噪声并重复执行，看看结果是否在您的条件下仍然相对一致。

但是如果没有更多信息，就很难提供帮助。我希望我给了你一些思考的东西。

其它你可能感兴趣的问题

上一篇是否有单调性、凸性或凹性测试？下一篇在 R 的逻辑回归公式中加入随机效应