我正在绘制一个残差图来测试异方差性。Breusch-Pagan 检验很重要,因此我怀疑存在异方差性的证据。问题是:
(a) 我如何解释这样的图表?我知道有些点似乎是相互重叠的等等。就这么简单吗?
(b) 数据也有很多二进制虚拟变量。这可能是异方差的原因吗?
我正在绘制一个残差图来测试异方差性。Breusch-Pagan 检验很重要,因此我怀疑存在异方差性的证据。问题是:
(a) 我如何解释这样的图表?我知道有些点似乎是相互重叠的等等。就这么简单吗?
(b) 数据也有很多二进制虚拟变量。这可能是异方差的原因吗?
关于异方差性,您有兴趣了解点的垂直分布如何随拟合值变化。为此,您必须将绘图切成细垂直部分,找到每个部分的中心高程(y 值),评估围绕该中心值的分布,然后将所有内容连接起来。以下是一些可能的切片:
通常,这将使用对位置和分布的稳健估计来完成,例如中位数和四分位间距。如果我们有数据,我们可能会生成一个漂移的示意图。数据很难从带有重叠点的图形图像中以数字方式提取。然而,在这种情况下,垂直分布趋于紧凑、对称且没有异常值,因此我们可以安全地使用均值和标准差来代替——这些都可以使用图像处理软件轻松计算。事实上,我所做的是水平涂抹这些点,然后计算图像中每个垂直像素列的位置的均值和方差。(由于某些点的过度绘制,此处理会有点不准确,但不太可能使相对 SD 偏差太大。)
涂抹点有一个明确的楔形,从左到右变窄。(眯着眼睛看一张图有时可以帮助呈现散点图的整体完形印象,只要它有很多点。)
均值(在下方以蓝色显示)和均值加上或减去方差平方根的适当倍数(红色和金色)将描绘出残差的位置和典型限制。
我选择了一个倍数,旨在将大约 5% 的点放置在上部迹线上方,另外 5% 在下部迹线下方。
通过练习,您可以通过仔细检查绘图本身来看到这些痕迹——无需计算。从左到右扫描,估计每列垂直点的中间。估计它们的传播。在点相对较少的地方稍微夸大您对散布的估计——它们还没有机会显示出它们的全部散布量。同时,在点数很少的区域打折你的估计(即不要太相信它们),因为你的估计在那里高度不确定。
寻找清晰一致的传播变化模式。 在上图中,随着拟合值的增加,上部轨迹(红色)和下部轨迹(金色)似乎从左到右靠得更近了一点。通过绘制标准偏差可以使这一点更加明显。单位无关紧要,但垂直轴应从零开始,以准确呈现点差的相对大小:
这证实了随着拟合值增加而减少 SD 的初始印象。总的来说,当我们从左到右扫描时,SD 减半。(最右边的轻微向上增加可以忽略,因为它与很少的数据点相关。) 这是异方差的经典形式:散布随拟合值系统地变化。
在多元回归中使用虚拟变量不会引入异方差。通常它会通过将重叠的残差组分解为单独的残差来减少它。
异方差性是否真的是一个问题取决于分析的目的、采用的回归方法、从结果中提取的信息以及数据的性质。
毫无疑问,这些图表明存在异方差性。如果需要进行精确测试,我最近的研究将给出响应“检测单调和非单调异方差类型的新测试,应用统计学杂志,2016 年”