ANOVA 中的显着截距是什么意思?

机器算法验证 r 回归 方差分析 统计学意义
2022-03-31 21:46:01

考虑一个具有连续响应变量和分类解释变量的模型。我很欣赏在 R 中,该数据上的 anova 的 summary.lm 输出为您提供了代表每个因子水平平均值的行。显着性星代表每个级别的平均值与“截距”之间差异的显着性,“截距”代表因子第一级别的平均值。

我想知道的是这个截距术语上的重要星星代表什么?仅仅是这个特定因素水平的平均值不为零?

3个回答

截距是所有自变量为 0 时因变量的估计值。因此,假设您有一个模型,例如

收入~性

那么如果性别编码为男性为 0,女性为 1,则截距为男性收入的预测值;如果显着,则意味着男性的收入与 0 显着不同。

在大多数情况下,截距的意义并不是特别有趣。实际上,您可以通过重新编码自变量轻松更改截距,但这对模型的含义没有影响。

R的默认行为(实际上是将第一个级别编码为 0)相反,ANOVA 通常使用对比或总和到零编码,其中编码为与 0 的偏差的因子 a 的级别和截距代表盛大平均值(或单元格平均值的平均值,这取决于)。

然后,显着截距意味着总均值不同于 0。

彼得弗洛姆的回答不正确。我没有评论 Peter Flom 问题的声誉,所以我将把我的回复放在这里。

让我们使用可以是红色、绿色、蓝色的颜色因子的示例。假设这些颜色将分别对应 40、60 和 30 的平均响应变量 (y)。

现在并不普遍认为,但方差分析和线性回归实际上是完全相同的东西。线性模型 y = Xb + e 的设计矩阵(X)看起来像这样......

RGB

1 1 0 0

1 0 1 0

1 0 0 1

...但是,当尝试通过平方误差和关于 b 的导数来估计系数时(即 b = (X^T * X) ^-1 * X^T * y 你会注意到 X^ T * X 是一个奇异矩阵。如果您考虑一下,这很直观。解决此问题的方法很简单。您将一种处理转换为截距并表达与该截距相关的所有平均响应。请参阅下面的新设计矩阵...

(R) 国标

1 0 0

1 1 0

1 0 1

...现在我们有一个设计矩阵,其中截距实际上是治疗红色。现在所有的平均响应都与 RED 相关,即。红色 = 40,绿色 = 20,蓝色 = -10。

R = R = 40 G = G + R = 20 + 40 = 60 B = B + R = -10 + 40 = 30

换句话说,在 ANOVA(实际上与线性回归相同)中,截距实际上是一种治疗,而显着的截距意味着治疗是显着的。现在,如果您进入两种甚至更高级别的 ANOVA,截距的解释就会变得更加复杂,但是对于单向方差分析,截距本身就是另一种处理方式。