综合测试和多重比较之间的关系?

机器算法验证 假设检验 多重比较
2022-03-02 16:27:10

维基百科

在进行 多重比较之前依赖综合测试的方法。通常,这些方法需要在进行多重比较之前进行显着的 ANOVA/Tukey 范围检验。这些方法对 I 类错误的“弱”控制。

ANOVA 中的 F 检验是综合检验的一个示例,用于检验模型的整体显着性。显着性 F 检验意味着在测试的均值中,至少有两个均值显着不同,但该结果并没有具体说明哪些均值与另一个不同。实际上,检验均值的差异是由二次有理 F 统计量(F=MSB/MSW)产生的。为了确定哪个平均值与另一个平均值不同或哪个平均值对比显着不同,应在获得显着综合 F 检验后进行事后检验(多重比较检验)或计划检验。可以考虑使用简单的 Bonferroni 校正或其他合适的校正。

所以综合检验是用来检验整体显着性的,而多重比较是找出哪些差异是显着的。

但是如果我理解正确的话,多重比较的主要目的是检验整体的显着性,也可以找出哪些差异是显着的。换句话说,多重比较可以做综合类可以做的事情。那为什么我们需要综合测试呢?

3个回答

多重比较程序的目的不是检验整体显着性,而是在控制实验错误率的同时检验个体效应的显着性。例如,综合 F 检验很可能在给定水平上显着,而成对 Tukey 检验都不显着——这在此处此处进行了讨论。

考虑一个非常简单的例子:测试两个具有单位方差的独立正态变量是否均值为零,因此

H0:μ1=0μ2=0
H1:μ10μ20

测试#1:当

X12+X22Fχ221(1α)

时拒绝

|X1||X2|FN1(111α2)

(使用 Sidak 校正来保持整体大小)。两个测试具有相同的大小 ( ),但拒绝区域不同:α

拒绝区域图

测试#1 是一个典型的综合测试:当两个影响都很大但都不是很大时,比测试#2 更强大。测试#2 是一个典型的多重比较测试:当一个效应大而另一个小时,比测试#1 更强大,并且还能够独立测试全局零值的各个组件。

处控制实验错误率的两个有效测试程序是:α

(1) 执行测试 #1 并且 (a) 不拒绝全局空值,或者 (b) 拒绝全局空值,然后(& 仅在这种情况下)执行测试 #2 并且 (i) 不拒绝任何组件, (ii) 拒绝第一种成分,(ii) 拒绝第二种成分,或 (iv) 拒绝两种成分。

(2) 仅执行测试#2 & (a) 不拒绝任何组件(因此无法拒绝全局 null),(b)拒绝第一个组件(因此也拒绝全局 null),(c)拒绝第二个组件(因此也拒绝全局空值),或(d)拒绝两个组件(因此也拒绝全局空值)。

通过执行测试#1 并且不拒绝全局空值,您不能吃蛋糕并吃掉它,但仍继续执行测试#2:对于此过程,I 类错误率大于α

在测试 m 个假设时,个假设组合。其中之一是“全局零”假设,也就是“交叉假设”:2mHi0

综合检验通常是检验全局零假设的名称。多重测试过程的最低要求是全局空值下的错误控制。这被称为“弱 FWER”控制。但是您可能不会止步于此——为了推断特定假设,您将需要一个在真空值的任何组合下提供 FWER 控制的程序。这被称为“强 FWER”控制。

除了与 Pair-Wise 测试相关的计算之外,还有其他原因导致使用 ANOVA 而不是进行所有 PAIR-WISE 测试。

有时,虽然 ANOVA 可能会拒绝所有总体均值在某个置信水平上相同的原假设,但如果您进行所有成对检验(例如 LSD),您甚至可能找不到至少一对均值超过该置信水平的差异。

上述陈述的数学证明,考虑 FISHER 的 LSD 成对测试

在此处输入图像描述 这里:是平方内标准差。Sp

举个例子,当我们有个组时,我们有成对测试。NN(N1)/2

将所有此类 测试相加:N(N1)/2

除以(因为它是自由度)并在两边平方后:(N1)

在 LHS 上,我们得到与 ANOVA 相同的数量;但是,在 RHS 上,我们得到 *ANOVA 的检验统计量。N/2

因此,即使所有成对的 LSD 检验一起不能拒绝零假设,ANOVA 仍然很有可能拒绝零假设。

因此,ANOVA 包含的信息比一起考虑的所有成对测试中的信息要多。

PS:很抱歉使用图像而不是输入方程式。