来自 R 输出解释的 Anova

机器算法验证 r 自习 方差分析 解释
2022-03-11 05:33:14

我有一个关于统计学家通常如何解释方差分析输出的问题。假设我有来自 R 的方差分析输出。

> summary(fitted_data)

Call:
lm(formula = V1 ~ V2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.74004 -0.33827  0.04062  0.44064  1.22737 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.11405    0.32089   6.588  1.3e-09 ***
V2           0.03883    0.01277   3.040  0.00292 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262,    Adjusted R-squared: 0.06476 
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.002917 

> anova(fit)
Analysis of Variance Table

Response: V1
           Df Sum Sq Mean Sq F value   Pr(>F)   
V2          1  3.588  3.5878  9.2402 0.002917 **
Residuals 118 45.818  0.3883                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

综上所述,我猜最重要的值是 Pr(>F),对吧?所以这个 Pr,小于 0.05(95% 的水平)。我应该如何“解释”这个?我是否在“关联”中解释它,即 V2 和 V1 关联(或不关联)?还是就“意义”而言?当人们说“这个价值很重要......”时,我总是觉得我无法理解。那么什么是“重要”呢?有没有更直观的解释形式?比如“我有 95% 的把握……”。

另外,Pr 值是唯一重要的信息吗?或者我也可以查看残差和输出的其余部分来“解释”结果吗?谢谢

2个回答

综上所述,我猜最重要的值是 Pr(>F),对吧?

不是我。p 值的大小是 ANOVA 中最重要的东西的想法很普遍,但我认为几乎完全被误导了。首先,p 值是一个随机量(更何况,当 null 为真时,当它均匀分布在 0 和 1 之间时)。因此,在任何情况下,较低的 p 值可能都不会提供特别丰富的信息,但即使超出 p 值大小的问题,诸如效应大小之类的事情通常也更为重要。

您可能想阅读一下

科恩,J. (1990)。我学到的东西(到目前为止),美国心理学家 45, 1304-1312。

科恩,J. (1994)。地球是圆的 (p < .05)。美国心理学家,49,997-1003。

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/

http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf

http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy

--

当 p 值低于时,我并没有真正解决解释输出的问题α. 如果不确切说明正在考虑什么假设,提及“重要性”似乎毫无意义。从这个意义上说,那么最好提及拒绝空值所得出的结论。

在您介绍的情况下,没有上下文很难解释(我什至不知道 V2 是分类的还是连续的),但如果 V2 是连续的,我可能会说一些关于 V1 和 V2 之间存在关联的结论。如果 V2 是分类的 (0-1),我可能会说一下两个类别的均值 V1 的差异,等等。

现在有些话不要说:

小于 0.05(95% 水平)

永远不要将 p<0.05 称为“在 95% 的水平上显着”。那是错误的。实际上,您也不应该将其称为 95%。

比如“我有 95% 的把握……”。

也永远不要这么说。这是错的。

我可能首先看到的输出块是这样的:

Multiple R-squared: 0.073,    Adjusted R-squared: 0.065
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.003

它告诉您整个模型是显着的 (F(1,118) = 9.24, p= .003) 并且 V1 约占 V2 方差的 7%。

效应大小 (0.039) 告诉您,如果 V2 增加 1,您的模型预测 V1 将增加(正相关)约 0.04)。该估计值的标准误差 (0.013) 表明(大致),该效应的 95% 置信区间为 CI95 = [.0135, .064](即,.039- 1.96*.013.039+ 1.96*.013

置信区间不包括零,它(必须)与 p 值一致。

如果您想要 anova 输出(如您所说),您需要提出要求(不是回归摘要,这是summary()给出的)。

anova(),或者,从car包中,Anova会给你这个。根据您的目的,您可能更喜欢汽车的 Anova 默认输出,它给出了 ANOVA 中每个变量的效果,就好像它是最后输入的一样,即所谓的“类型 III 平方和”。

mtcars如果我们切换到使用每加仑汽车里程的 Rs 数据集以及重量和发动机尺寸等其他数据的内置示例,您可以生成一个 Anova 示例:

m1 = lm(mpg ~ wt + disp + cyl+gear+am, data = mtcars);
Anova(m1)
| | 总平方| Df| F值| 镨(>F) |
|:---------|------:|--:|-------:|-------:|
|重量 | 58.02| 1| 8.27| 0.01*|
|显示 | 1.53| 1| 0.22| 0.64 |
|气缸 | 57.59| 1| 8.21| 0.01*|
|齿轮 | 6.02| 1| 0.86| 0.36 |
|上午 | 3.44| 1| 0.49| 0.49 |
|残差 | 182.41| 26| | |

这表明车辆重量和气缸数量是车辆每加仑行驶里程的重要因素。当然,所有这些变量在汽车数据集中都被混淆了,这表明我们确实需要一个油耗理论来取得进展。