如何在统计显着和非显着分析中解释和报告 eta 平方 / 部分 eta 平方?

机器算法验证 方差分析 统计学意义 规模效应
2022-01-29 12:05:56

我的数据具有 eta 平方值和部分 eta 平方值,计算为组均值差异的效应大小的量度。

  • eta平方和部分eta平方有什么区别?可以使用相同的 Cohen 指南(我认为 1988 年:0.01 = 小,0.06 = 中,0.13 = 大)来解释它们吗?

  • 此外,如果比较检验(即 t 检验或单向 ANOVA)不显着,是否可以报告效应量?在我看来,这就像在说“平均差异没有达到统计显着性,但仍然特别值得注意,因为从 eta 平方指示的效应大小是中等的”。或者,效应量是显着性检验的替代值,而不是互补?

1个回答

组均值差异的影响大小

  • 一般来说,我发现标准化的组平均差异(例如,Cohen's d)在组差异的背景下是一种更有意义的效应量测量。像 eta square 这样的度量受组样本大小是否相等的影响,而 Cohen 的 d 则不然。我还认为,当您尝试量化的是组均值之间的差异时,基于 d 的度量的含义更直观。
  • 对于只有两组的情况(例如,治疗效果与对照效果),上述观点尤为重要。如果您有两个以上的组,那么情况会稍微复杂一些。在这种情况下,我可以看到方差解释度量的论点。或者,科恩的f2是另一种选择。
  • 第三种选择是,在实验效果的背景下,即使有两个以上的组,效果的概念最好被概念化为二元比较(即,一种条件相对于另一种条件的效果)。在这种情况下,您可以再次返回基于 d 的度量。基于 d 的测量不是该因子的效应量测量,而是一个组相对于参考组的测量。关键是定义一个有意义的参考组。
  • 最后,重要的是要记住包括效应量测量的更广泛目标。它是为了让读者了解感兴趣的效果的大小。任何标准化的效果测量都应该有助于读者完成这项任务。如果因变量在本质上有意义的尺度上,那么不要回避根据该尺度来解释效应的大小。例如,反应时间、薪水、身高、体重等量表本质上是有意义的。如果您像我一样发现 eta squared 在实验效果的背景下有点不直观,那么也许选择另一个索引。

Eta 平方与部分 eta 平方

  • 部分 eta 平方是 SPSS 中的几个 ANOVA 程序中报告的默认效应大小测量。我想这就是为什么我经常收到有关它的问题。
  • 如果您只有一个预测变量,则部分 eta squared 等效于 eta squared。
  • 本文解释了 eta squared 和 partial eta squared 的区别(Levine and Hullett Eta Squared, Partial Eta Squared..)。
  • 总之,如果您有多个预测变量,则部分 eta 平方是排除其他预测变量解释的方差后剩余方差的给定变量解释的方差。

eta 平方和部分 eta 平方的经验法则

  • 如果您只有一个预测变量,那么 eta 平方和部分 eta 平方是相同的,因此将适用相同的经验法则。
  • 如果您有多个预测变量,那么我认为 eta 平方的一般经验法则将更多地适用于部分 eta 平方而不是 eta 平方。这是因为阶乘 ANOVA 中的部分 eta 平方可以说更接近于如果它是单向 ANOVA 的因子的 eta 平方;它可能是引起科恩经验法则的单向方差分析。一般来说,在实验设计中包括其他因素通常应该减少 eta 平方,但不一定是部分 eta 平方,因为第二个因素(如果有影响)会增加因变量的可变性。
  • 尽管我对 eta 平方和部分 eta 平方的经验法则说了些什么,但我重申,我不喜欢在解释实验效应的大小和含义的背景下解释效应大小的测量值。同样,经验法则就是这样,粗略的,依赖于上下文的,不要太认真。

在显着和非显着结果的背景下报告效应大小

  • 从某种意义上说,您研究的目的是估计您感兴趣的变量对总体的影响的各种定量估计。
  • 效应量是对这种效应的点估计的一种量化。您的样本量越大,一般来说,您的样本点估计值就越接近真实的总体效应。
  • 从广义上讲,显着性检验旨在排除机会作为对结果的解释。因此,p 值告诉您在假设原假设为真的情况下观察到效应大小为极端或更极端的概率。
  • 最终,您想排除没有影响并想说明真实人口效应的大小。围绕效应大小的置信区间和可信区间是更直接地解决这个问题的两种方法。但是,报告 p 值和效应大小的点估计值非常常见,并且比仅报告 p 值或仅报告效应大小测量要好得多。
  • 关于您的具体问题,如果您的结果不显着,则由您决定是否报告效应量度量。我认为,如果您有一个包含许多结果的表,那么无论重要性如何都使用一个效果大小列是有意义的。即使在不显着的情况下,具有置信区间的效应大小也可以提供信息,表明不显着的发现是否可能是由于样本量不足。