ANOVA 中变量的顺序很重要,不是吗?

机器算法验证 回归 假设检验 方差分析 不平衡类 平方和
2022-02-08 14:47:45

我是否正确理解在多因素方差分析中指定变量的顺序会有所不同,但在进行多元线性回归时顺序无关紧要?

因此,假设一个结果,例如测量失血量 y和两个分类变量

  1. 腺样体切除术 a
  2. 扁桃体切除法 b

该模型与模型y~a+b不同y~b+a(或者我在 R 中的实现似乎表明了这一点)。

我是否正确理解这里的术语是方差分析是一个层次模型,因为它首先将尽可能多的方差归因于第一个因素,然后再尝试将剩余方差归因于第二个因素?

在上面的示例中,层次结构是有道理的,因为我总是在进行扁桃体切除术之前先进行腺样体切除术,但是如果一个变量有两个没有内在顺序的变量会发生什么?

2个回答

这个问题显然来自一项不平衡的双向设计的研究,在 R 中使用aov()函数进行了分析;此页面提供了此问题的更新和详细示例。

对于许多人来说,这个问题的一般答案是:“视情况而定”。这取决于设计是否平衡,如果不平衡,则选择哪种类型的 ANOVA。

首先,要看设计是否平衡。在所有可能的世界中,如果因子设计的所有单元格中的案例数量相同,则无论如何执行 ANOVA,都不会因为将因子输入模型的顺序而产生差异。* 手头的案例,显然来自回顾性临床队列,似乎来自一个没有找到这种平衡的现实世界。所以顺序可能很重要。

其次,它取决于如何执行 ANOVA,这是一个有争议的问题。不平衡设计的 ANOVA 类型在评估主效应和交互作用的顺序上有所不同。评估交互作用是双向和高阶 ANOVA 的基础,因此对于进行的最佳方法存在争议。有关解释和讨论,请参阅此交叉验证页面。请参阅软件包手册中Anova()(带有大写“A”)功能的详细信息和警告以获得不同的视图。car

在 R中的默认设置下,因子的顺序在不平衡设计中确实aov()很重要,它使用所谓的 I 型测试。正如当前问题所设想的那样,这些是变量按进入模型的顺序对因素的连续归因。顺序与 R中包中的函数提供的 II 型或 III 型测试无关。但是,这些替代方案在上述链接中具有其自身的潜在缺点。Anova()car

最后,考虑与 R 中的多元线性回归的关系,lm()如果包含交互项,它本质上是相同类型的模型。变量的输入顺序与报告lm()的回归系数和psummary(lm())值无关,其中 k 级分类因子编码为 (k-1) 个二元虚拟变量,每个虚拟变量报告一个回归系数.

但是,可以使用(R 包中的小写“a” )包装lm()输出,或者总结每个因素对其所有级别的影响,正如人们在经典 ANOVA 中所期望的那样。那么因素的顺序将与for相关,而与 无关同样,关于使用哪种类型的 ANOVA 的争议将会再次出现。因此,假设因子输入与模型的所有下游使用顺序无关是不安全的anova()statsAnova()anova()aov()Anova()lm()


*在所有单元格中进行相同数量的观察就足够了,但据我了解,因素的顺序没有必要无关紧要。要求不高的余额类型可能允许订单独立。

术语层次模型是指因素之间的结构。例如,多中心研究是分层的:您将患者嵌套在治疗他们的医院中。每家医院都用安慰剂和真药治疗患者,但在医院 A 或 B 中接收到他们每个人都略有不同,因为医院管理对所有患者的一些共同影响(甚至可能是与实验药物的相互作用)。所以叫做层次效应。

现在您的切除术方法可能是分层的:根据之前使用的腺样体切除术方法,某种扁桃体切除术方法是否可能略有不同(本身,尚未产生效果,因为这是您要估计和测试的)病人?如果是,您应该在模型中指定它。

您观察到 y~a+b 可能与 y~b+a 不同,这表明存在问题。加性效应通勤,所以不应该有差异(除了小的数值差异)。手术方法的效果可能取决于统计学家后来指定效果的顺序既不合理也不期望。因此,您可能选择了错误的方法来提供R数据。