如何计算多重比较实验的功效(或样本量)?

机器算法验证 假设检验 多重比较 样本量 统计能力
2022-03-27 14:40:16

我收集了 20 个组的数据(每组 30 个元素)。多重比较程序(带有 Holm 校正的成对 t 检验)表明,通常有 3 组组:高组有 4 组,低组有 2 组,中组有其余 14 组。每组对于其中的组没有显着差异,但与其他组中的组有显着差异。(这是一个简化,因为对于每组的极端还有一些其他显着和不显着的结果,但我正在对结果进行简化,以便我可以为您和读者写一个简明的实验总结的论文。)

如果要将此结果用于决策,例如将中间组的成员视为等效,则必须确保结果是“真实的”,而不仅仅是因为样本量小。

因此,我需要计算某种功效度量(功效 = 1-当它为假时接受 H0 的概率)或某种样本量度量,以表明需要一个更大样本量的新实验,或者确实存在差异是“可能是真的”。

但是统计能力是什么?

  1. 它不是整个 20 组 ANOVA,因为该分析拒绝了零值。
  2. 我应该运行中间组 14 组的 ANOVA 并计算其功效吗?但这似乎会高估功效(或低估所需的样本量),因为中间集中的极端群体“几乎”不同。
  3. 我是否应该计算中间组中最不显着的成对 t 检验的功效(使用 Bonferroni 校正的 alpha)?但这将严重低估力量,因为两个最相似的群体很可能“真的”没有不同。

有任何想法吗?我可以遵循任何参考吗?

到目前为止我所知道的:

  1. R 包pwr计算 t 检验、单向方差分析和其他检验的功效或样本大小。
  2. 关于多重比较所需的相对样本量,Witte、Elston 和 Cardon 讨论了在计算多重比较的样本量时使用 Bonferroni 校正的 alpha 值。

编辑 - 2013 年 8 月

这个问题有一些赞成的运动,所以我决定添加更多信息,或者更好地澄清这个话题。

我不太同意发布的两个答案。我不认为这是一个数据挖掘/聚类问题。但可能我没有正确地表达这个问题。那篇论文发表了,所以我不仅可以在这里指出它,还可以讨论我需要什么。

在论文中,我(和同事)基于每个领域 30 名研究人员的随机样本,讨论了不同计算机科学子领域之间生产力和引用之间的差异。该论文包括一个紧凑的字母显示,显示了 20 个 CS 子区域中的任何两个子区域之间的显着差异。但我想展示这些领域之间的重要等价性。考虑到每个领域有 30 个样本点,这两个领域很可能具有相同的生产力或每篇论文的引用相同。

我知道等价测试(或两个单面测试 - TOST)——在 CV 中对此进行了一些讨论,但我在任何地方都没有看到多个等价测试!

我的想法是使用权力是权力的定义= 1-当它为假时接受H0的概率正是我需要说明两个领域具有相同的生产力 - 我声明它们具有相同的生产力( H0)并且该陈述在“功率”置信水平下是正确的!

我仍然不知道该怎么做,而且论文没有声明某些 CS 领域之间可能等效,这实际上是更有趣的结果!

我将再次感谢任何意见或帮助。

2个回答

如果您已经完成了实验,那么进行任何功率分析就没有什么意义了。在 P 值较小的情况下,观察到的效应大小和变异性的功效足够大。如果 P 值大,则观察到的效应大小和可变性的功效很小。功效分析对于计划实验很有用,但事后没有用。参见 Hoenig & Helsey 的这篇论文:http ://www.tandfonline.com/doi/abs/10.1198/000313001300339897#preview

您对功效分析的渴望似乎是基于以下陈述“必须确保结果是‘真实的’,而不仅仅是因为样本量小”,因此仔细考虑它是有用的。首先,统计分析不能告诉你结果的真实性——你可能知道的事情,因为你把“真实”放在引号里。其次,您暗示小样本更有可能产生假阳性结果,而现实情况是小样本与大样本完全相同小样本更有可能产生假阴性结果。

如果您想确信结果会得出可靠的结论,那么您必须根据对系统的了解来考虑它们的性质,并且理想情况下,复制研究中最有趣或最令人惊讶的部分。(我承认,在这里,判断良好的统计分析比判断不佳的统计分析更有帮助:请参阅 Julien Sturnemann 的回答以获取一些建议。)

我看到你的帖子,我真的不知道我的回答是否对你有任何帮助,因为它实际上需要重新考虑整个分析。但是:您的问题似乎完全与数据挖掘有关,因为您实际上是在尝试在没有监督的情况下发现数据中潜在个体集群的数量和中心(即,没有一个结果变量可以轻松地将这些类别分开个人)。对于无监督分类,您可能需要考虑几种方法。其中大部分将允许您估计组的数量、质心以及稳健性和不确定性的度量。您可以先查看 k-means 方法和层次聚类方法。