学术界有缺陷的多元线性回归?异方差性对 p 值的影响?

机器算法验证 r 多重回归 线性的 异方差 截断
2022-04-05 00:03:07

我相信我在学术界发现了一篇使用有缺陷的多元线性回归的论文。我已经下载了数据集并复制了他们的回归结果。我做了一些诊断,发现这让我感到惊讶:

在此处输入图像描述

模型中显然存在异方差性,对吗?因此,这违反了 MLR 的假设,即存在同方差性。

到目前为止,我发现异方差性对 p 值有影响,即它使自变量与因变量关联的 p 值更小。因此,具有异方差性,MLR 模型可以显示 IV 和 DV 之间的显着关系,而实际上不存在显着性。

我的理解正确吗?关于 MLR 模型结果的异方差性的任何有用资源?

欣赏它。

1个回答

这不是您正在查看的异方差性,而是truncation

您可以在第一个图中非常清楚地看到这一点:拟合 + 残差的组合没有超过某个数字,导致这条突然出现的假想对角线,超过该对角线没有观察结果。在比例位置图中,这个奇怪的形状表明数据在处被截断。1

很容易模拟一些截断的数据,并显示诊断图确实显示了这个对角线截断,以及比例位置图中奇怪的 V 形:

set.seed(1234)
n      <- 1000
beta_0 <- 1.5
beta_1 <- 0.5
x      <- rnorm(n)
y      <- beta_0 + beta_1 * x + rnorm(n, 0, 0.5)
y      <- pmin(y, 1)
plot(lm(y ~ x))

截断数据的诊断图

真正的问题不是从这些诊断图中得出什么结论,而是这些数据什么。如果您包含对您阅读的论文的参考,我们可以看到为什么数据是有界的,以及这是否会导致他们的结论无效。


编辑:在您解释的评论中,这些是比率。这为您提供了他们的方法是否有缺陷的实际答案(可能是)。而不是一个普通的线性模型,作者可能应该使用逻辑回归,例如使用构成这些比率的原始值。