如何在线性回归中对二元/二分独立预测变量进行残差分析?

机器算法验证 r 多重回归 分类数据 异方差 残差
2022-01-31 23:04:45

我在 R 中执行下面的多元线性回归来预测管理基金的回报。

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

这里只有 GRI 和 MBA 是二元/二分预测器;其余的预测变量是连续的。

我正在使用此代码为二进制变量生成残差图。

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

我的问题: 我知道如何检查连续预测变量的残差图,但是当自变量是二元时,您如何测试线性回归的假设,例如同方差性?

残差图:

GR1 的残差图 MBA 的残差图

2个回答

当您有两组时,@NickCox 在讨论残差显示方面做得很好。让我来谈谈这个线程背后的一些明确的问题和隐含的假设。

问题是:“当自变量是二元时,你如何检验线性回归的假设,例如同方差性?” 你有一个多元回归模型。(多重)回归模型假设只有一个误差项,它在任何地方都是恒定的。单独检查每个预测变量的异方差性并不是很有意义(而且您也没有)。这就是为什么当我们有一个多元回归模型时,我们会根据残差与预测值的图来诊断异方差性。可能对这个目的最有用的图是比例位置图(也称为“扩展水平”),它是残差绝对值与预测值的平方根的图。要查看示例,线性回归模型中的“恒定方差”是什么意思?

同样,您不必检查每个预测变量的残差是否正常。(老实说,我什至不知道这将如何工作。)

可以使用针对各个预测变量的残差图来检查是否正确指定了函数形式。例如,如果残差形成抛物线,则您错过的数据中有一些曲率。要查看示例,请在此处查看@Glen_b 答案中的第二个图: Checking model quality in linear regression但是,这些问题不适用于二元预测器。

对于它的价值,如果您只有分类预测变量,您可以测试异方差性。您只需使用 Levene 的测试。我在这里讨论它:为什么 Levene 检验方差相等而不是 F 比率? 在 R 中,您使用car 包中的?levenTest


编辑:为了更好地说明当您拥有多元回归模型时,查看残差与单个预测变量的图并没有帮助,请考虑以下示例:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

从数据生成过程可以看出,不存在异方差性。让我们检查模型的相关图,看看它们是否暗示有问题的异方差性:

在此处输入图像描述

不,没什么好担心的。但是,让我们看一下残差与单个二元预测变量的关系图,看看那里是否存在异方差:

在此处输入图像描述

哦,看来确实可能有问题。我们从数据生成过程中知道不存在任何异方差性,并且用于探索这一点的主要图也没有显示任何异方差性,那么这里发生了什么?也许这些情节会有所帮助:

在此处输入图像描述

x1并且x2不是相互独立的。此外,观察结果x2 = 1处于极端状态。他们有更多的杠杆,所以他们的残差自然更小。尽管如此,不存在异方差性。

带回家的信息: 您最好的选择是仅从适当的图(残差与拟合图和扩展水平图)中诊断异方差性。

确实,在这种情况下,传统的残差图更难:查看分布是否大致相同可能会(非常)困难。但这里有简单的替代方案。您只是在比较两个分布,有很多好方法可以做到这一点。一些可能性是并排或叠加的分位数图、直方图或箱线图。我自己的偏见是,未经修饰的箱形图在这里经常被过度使用:它们通常会抑制我们应该想看的细节,即使我们经常可以将其视为不重要而忽略。但是你可以吃你的蛋糕并拥有它。

您使用 R,但您的问题中没有任何统计数据是特定于 R 的。在这里,我使用 Stata 对单个二元预测变量进行回归,然后启动分位数箱线图,比较预测变量的两个级别的残差。此示例中的实际结论是分布大致相同。

在此处输入图像描述

如果该图看起来很神秘,则更详细:对于每个分布,我们都有一个分位数图,即绘制有序值与它们的(分数)等级。显示中位数和四分位数的方框被叠加。的线为界1/43/4

注意:另请参阅如何呈现带有极端异常值的箱线图?包括@Glen_b 的使用 R 进行类似绘图的示例。这样的绘图在任何体面的软件中都应该很容易;如果没有,你的软件不合适。