方差分析中效应大小的什么测量在零下的模式为零(不像η2η2那不)?

机器算法验证 方差分析 r平方 规模效应
2022-03-21 10:45:05

在方差分析中计算 eta 平方时,我遇到了一个奇怪的效果。这是一个简短的模拟来演示它。

我模拟个组,每组,所有值均来自标准正态分布(即在组之间没有差异的零假设下)。我进行单向方差分析来比较这些组,并计算 eta 平方作为效应大小的度量. 然后,我绘制了许多模拟结果值的直方图。这是的数字:kn=10η2=SSbtw/SStotk=2,5,10

零假设下 eta 平方在单向方差分析中的分布

可以看到,在时,分布在零处达到峰值,而随着组的增多,分布开始在非零正值处达到峰值。我对这种现象有很多疑问。k=2

  1. 我做了一些谷歌搜索(并搜索了这个论坛),发现 eta 平方通常被称为效应大小的“有偏”度量。这是否与我偶然发现的完全一致?

    更新:没有。正如@gung 和@Silverfish 在下面澄清的那样,eta 平方是微不足道的,因为它被限制为正,因此在空值下,这意味着它在定义上是有偏差的。我说的是一种似乎没有名字(?)的现象,所以我称之为“mode-biased-under-null”。E(η2)0

  2. 在什么情况下会出现这种 mode-bias-under-null ?我无法通过 t 检验()获得它,无论是相等还是不相等的样本量,并且似乎无法通过获得它。保证模式为零的条件(就k=2k=3kni

    更新:似乎答案是请参阅此处的讨论:在原假设下线性回归的分布是什么?时其众数不为零k3R2k>3

  3. 什么是 eta 平方的替代方案,不会受到这种奇怪的模式偏差在零下的影响?

    我想衡量效果大小(非正式地:衡量组之间的“可分离性”):

    • is unbiased可以有偏,但在零假设下应该在零处达到峰值;
    • 介于之间,因此可以解释为组之间的完全重叠,而可以解释为组的非重叠分布(即通过普通算法实现0101100%
    • 不必通过简单的公式给出,只要可以计算即可(例如,对于,可以选择 ROC 曲线下的面积);k=2
    • 与不平衡的群体一起工作;
    • 泛化为具有多个因子的 n 路 ANOVA,因为 eta squared 泛化为部分 eta squared(但我不感兴趣嵌套、重复测量或其他讨厌的 ANOVA 设计;例如,两个具有交互作用的因子)。

更新:我为什么要关心它?

在我的领域(神经科学)中,人们经常测试一大堆 DV(单个神经元的活动)是否依赖于某些分类 IV。这通常是在只有一个感兴趣的分类 IV 时完成的,并且它是二元的。在这种情况下,效应大小的直方图通常绘制在一组神经元中。这是Nature 论文的一个例子

凯佩奇等人。 直方图

这里个神经元,水平上显示出显着差异,并且效应大小(“结果偏好”)被计算为 ROC 曲线下适当缩放的区域。563136p<0.05

我想制作一个类似的直方图,但是当测试神经元不是调整到二元因子,而是调整到多级因子时。所以我打算运行 ANOVA 并使用作为效果大小(或者可能有符号,因为我的因子实际上是序数,因此可以将有意义的符号附加到),但是生成的直方图不会在零处达到峰值(并且在有符号的情况下它是双峰的),这肯定会让所有读者感到困惑。η2ηη2η

1个回答

η2与单向方差分析中的相同。它以为界。当原假设成立时,的真实值为因此,估计器必须有偏差,除非它只能在原假设为真时返回,或者其分布的一半是由于它不能是,并且它可以产生非零值,即使当 null 获得时,它也必须是有偏差的。另一方面,它是一致的,因为当空值成立时, as趋于无穷大。 R2[0, 1]η20SSB/SST0<0<0η20N