机器算法验证 - 如果我对交互不感兴趣，是否有任何理由运行双向 ANOVA 而不是两个单向 ANOVA？ - 吾爱随笔录

如果我对交互不感兴趣，是否有任何理由运行双向 ANOVA 而不是两个单向 ANOVA？

机器算法验证方差分析相互作用

2022-03-04 02:42:14

我的意思是除了能够在单个过程中完成分析的便利性之外的任何原因。

2个回答

是的，有几个原因！

1）辛普森悖论。除非设计是平衡的，否则如果其中一个变量影响结果，如果不调整第一个变量，您甚至无法正确评估另一个变量的影响方向（请参见链接中的第一个图表，特别是 - 转载如下**)。这说明了问题 - 组内效应正在增加（两条彩色线），但如果您忽略红蓝分组，您会得到减少效应（虚线，灰色线） - 完全错误的符号！

在此处输入图像描述

虽然这显示了一个连续变量和一个分组变量的情况，但当不平衡的双向主效应方差分析被视为两个单向模型时，可能会发生类似的事情。

2）让我们假设有一个完全平衡的设计。然后你仍然想这样做，因为如果你在查看第一个变量时忽略第二个变量（假设两者都有一些影响），那么第二个变量的影响会进入噪声项，夸大它......所以你的所有标准都有偏差错误向上。在这种情况下，显着且重要的影响可能看起来像噪音。

考虑以下数据、连续响应和两个名义分类因子：

      y x1 x2
1  2.33  A  1
2  1.90  B  1
3  4.77  C  1
4  3.48  A  2
5  1.34  B  2
6  4.16  C  2
7  5.88  A  3
8  2.56  B  3
9  5.97  C  3
10 5.10  A  4
11 2.62  B  4
12 6.21  C  4
13 6.54  A  5
14 6.01  B  5
15 9.62  C  5

两种方式的主效应 anova 非常重要（因为它是平衡的，所以顺序无关紧要）：

Analysis of Variance Table
Response: y
          Df Sum Sq Mean Sq F value    Pr(>F)    
x1         2 26.644 13.3220  24.284 0.0004000 
x2         4 38.889  9.7222  17.722 0.0004859 
Residuals  8  4.389  0.5486

但单个单向方差在 5% 的水平上并不显着：

(1) Analysis of Variance Table
Response: y
          Df Sum Sq Mean Sq F value  Pr(>F)  
x1         2 26.687 13.3436  3.6967 0.05613 
Residuals 12 43.315  3.6096                  

(2) Analysis of Variance Table
Response: y
          Df Sum Sq Mean Sq F value  Pr(>F)  
x2         4 38.889  9.7222  3.1329 0.06511 
Residuals 10 31.033  3.1033

请注意，在每种情况下，因子的均方均未更改……但残差均方显着增加（每种情况下均从 0.55 增加到超过 3）。这就是省略一个重要变量的效果。

** ^{（上图是维基百科用户舒茨制作的，但放在公共领域；虽然公共领域的项目不需要署名，但我觉得值得认可）}

是的。如果两个自变量相关和/或方差分析不平衡，则双向方差分析显示每个变量控制另一个变量的效果。

其它你可能感兴趣的问题

上一篇目前最先进的卷积神经网络有哪些？下一篇这个图表有名字吗？有点像饼图和mekko图的交叉