机器算法验证 - ANOVA 中的显着截距是什么意思？ - 吾爱随笔录

ANOVA 中的显着截距是什么意思？

机器算法验证 r 回归方差分析统计学意义

2022-03-31 21:46:01

考虑一个具有连续响应变量和分类解释变量的模型。我很欣赏在 R 中，该数据上的 anova 的 summary.lm 输出为您提供了代表每个因子水平平均值的行。显着性星代表每个级别的平均值与“截距”之间差异的显着性，“截距”代表因子第一级别的平均值。

我想知道的是这个截距术语上的重要星星代表什么？仅仅是这个特定因素水平的平均值不为零？

3个回答

截距是所有自变量为 0 时因变量的估计值。因此，假设您有一个模型，例如

收入～性

那么如果性别编码为男性为 0，女性为 1，则截距为男性收入的预测值；如果显着，则意味着男性的收入与 0 显着不同。

在大多数情况下，截距的意义并不是特别有趣。实际上，您可以通过重新编码自变量轻松更改截距，但这对模型的含义没有影响。

与R的默认行为（实际上是将第一个级别编码为 0）相反，ANOVA 通常使用对比或总和到零编码，其中编码为与 0 的偏差的因子 a 的级别和截距代表盛大平均值（或单元格平均值的平均值，这取决于）。

然后，显着截距意味着总均值不同于 0。

彼得弗洛姆的回答不正确。我没有评论 Peter Flom 问题的声誉，所以我将把我的回复放在这里。

让我们使用可以是红色、绿色、蓝色的颜色因子的示例。假设这些颜色将分别对应 40、60 和 30 的平均响应变量 (y)。

现在并不普遍认为，但方差分析和线性回归实际上是完全相同的东西。线性模型 y = Xb + e 的设计矩阵（X）看起来像这样......

RGB

1 1 0 0

1 0 1 0

1 0 0 1

...但是，当尝试通过平方误差和关于 b 的导数来估计系数时（即 b = (X^T * X) ^-1 * X^T * y 你会注意到 X^ T * X 是一个奇异矩阵。如果您考虑一下，这很直观。解决此问题的方法很简单。您将一种处理转换为截距并表达与该截距相关的所有平均响应。请参阅下面的新设计矩阵...

(R) 国标

1 0 0

1 1 0

1 0 1

...现在我们有一个设计矩阵，其中截距实际上是治疗红色。现在所有的平均响应都与 RED 相关，即。红色 = 40，绿色 = 20，蓝色 = -10。

R = R = 40 G = G + R = 20 + 40 = 60 B = B + R = -10 + 40 = 30

换句话说，在 ANOVA（实际上与线性回归相同）中，截距实际上是一种治疗，而显着的截距意味着治疗是显着的。现在，如果您进入两种甚至更高级别的 ANOVA，截距的解释就会变得更加复杂，但是对于单向方差分析，截距本身就是另一种处理方式。

其它你可能感兴趣的问题

上一篇如何处理具有许多特征的二进制分类中的倾斜类？下一篇如何在 R 中使用 lm() 函数存储标准错误？