误差项中的“恒定方差”是什么意思?正如我所看到的,我们有一个包含一个因变量和一个自变量的数据。恒定方差是线性回归的假设之一。我想知道同方差是什么意思。因为即使我有 500 行,我也会有一个明显恒定的方差值。我应该用什么变量比较方差?
线性回归模型中的“恒定方差”是什么意思?
这是一个我发现查看一些公式有帮助的地方,即使对于有一些数学焦虑的人也是如此(我不是建议你这样做,一定要这样做)。简单的线性回归模型是这样的:
这里需要注意的是这个模型明确状态一旦您估计了数据中的有意义信息(即“ ”),除了白噪声之外什么都没有剩下。此外,误差分布为方差为的正态分布。
重要的是要意识到不是一个变量(尽管在初中水平的代数中,我们会这样称呼它)。它没有变化。 变化。 变化。误差项随机变化;也就是说,它是一个随机变量。然而,参数 (是我们不知道的值的占位符——它们不会变化。相反,它们是未知常数。本次讨论的这一事实的结果是,无论是什么(即,在那里插入什么值),保持原样。换句话说,误差/残差的方差是恒定的。为了对比(也许更清晰),考虑这个模型:
插入一个值(从第三行开始) ,将其通过函数并获得的确切值处获得的误差方差。然后我们像往常一样遍历方程的其余部分。
上述讨论应该有助于理解假设的性质;该问题还询问如何评估它。基本上有两种方法:正式的假设检验和检查图。如果您有实验性数据(即仅在的固定值处出现)或 ANOVA,则可以使用异方差检验。我在这里讨论一些这样的测试:为什么 Levene 测试方差相等而不是 F 比. 但是,我倾向于认为看情节是最好的。@Penquin_Knight 通过绘制模型的残差,其中同方差性针对拟合值获得,很好地展示了恒定方差的样子。异方差性也可以在原始数据的图中或在比例位置(也称为扩展水平)图中检测到。R 通过调用plot.lm(model, which=2)
;方便地为您绘制后者。它是残差的绝对值与拟合值的平方根,并有一条Lowess曲线有助于叠加。您希望低位拟合是平坦的,而不是倾斜的。
考虑下面的图表,它们比较了同方差数据与异方差数据在这三种不同类型的图中的外观。注意上面两个异方差图的漏斗形状,以及最后一个向上倾斜的低线。
为了完整起见,这里是我用来生成这些数据的代码:
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)
这意味着当您根据预测值绘制个体误差时,误差预测值的方差应该是恒定的。见下图中的红色箭头,红线的长度(代表其方差)是相同的。