我试图了解简单线性回归分析中 ANOVA F 检验背后的逻辑。我的问题如下。当 F 值
MSR/MSE
大时,我们认为模型是显着的。这背后的逻辑是什么?
简单线性回归中 ANOVA F 检验背后的逻辑
在最简单的情况下,当您只有一个预测变量(简单回归)时,例如,检验会告诉您与空模型(仅截距)相比,中观察到的大部分方差。然后的想法是测试添加的解释方差(总方差,TSS,减去残差方差,RSS)是否大到足以被视为“重要数量”。我们在这里将具有一个预测变量或解释变量的模型与只是“噪声”的基线进行比较(除了大均值)。
同样,您可以在多元回归设置中计算统计量:在这种情况下,它相当于对模型中包含的所有预测变量进行测试,这在 HT 框架下意味着我们想知道它们中的任何一个是否对预测响应有用多变的。这就是为什么您可能会遇到整个模型检验显着而与每个回归系数相关联或
F看起来像
其中是模型参数的数量,是观测值的数量。这个量应该被称为分布的临界值或值。它也适用于简单回归模型,显然与经典的 ANOVA 框架有一些类比。
边注。 当您有多个预测变量时,您可能想知道仅考虑这些预测变量的一个子集是否会“降低”模型拟合的质量。这对应于我们考虑嵌套模型的情况。这与上述情况完全相同,我们将给定的回归模型与空模型(不包括预测变量)进行比较。为了评估解释方差的减少,我们可以比较两个模型的残差平方和 (RSS)(即,一旦您考虑了模型中存在的预测变量的影响,还有什么是无法解释的)。令和表示基本模型(用参数)和具有附加预测器(参数)的模型,那么如果是小,我们会认为较小的模型与较大的模型一样好。一个好的统计数据是这样的 SS 的比率,,由它们的自由度加权(为分子,为分母)。如前所述,可以证明这个量服从自由度为和(或 Fisher-Snedecor)分布。如果观察到大于给定分位数(通常为),那么我们会得出结论,较大的模型做得“更好”。(从实际的角度来看,这绝不意味着该模型是正确的!)
上述思想的概括是似然比检验。
如果您使用的是 R,则可以像这样使用上述概念:
df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df)) # "ANOVA view"
summary(lm(y ~ V1, df)) # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0) # test of V2