我收集了 20 个组的数据(每组 30 个元素)。多重比较程序(带有 Holm 校正的成对 t 检验)表明,通常有 3 组组:高组有 4 组,低组有 2 组,中组有其余 14 组。每组对于其中的组没有显着差异,但与其他组中的组有显着差异。(这是一个简化,因为对于每组的极端还有一些其他显着和不显着的结果,但我正在对结果进行简化,以便我可以为您和读者写一个简明的实验总结的论文。)
如果要将此结果用于决策,例如将中间组的成员视为等效,则必须确保结果是“真实的”,而不仅仅是因为样本量小。
因此,我需要计算某种功效度量(功效 = 1-当它为假时接受 H0 的概率)或某种样本量度量,以表明需要一个更大样本量的新实验,或者确实存在差异是“可能是真的”。
但是统计能力是什么?
- 它不是整个 20 组 ANOVA,因为该分析拒绝了零值。
- 我应该运行中间组 14 组的 ANOVA 并计算其功效吗?但这似乎会高估功效(或低估所需的样本量),因为中间集中的极端群体“几乎”不同。
- 我是否应该计算中间组中最不显着的成对 t 检验的功效(使用 Bonferroni 校正的 alpha)?但这将严重低估力量,因为两个最相似的群体很可能“真的”没有不同。
有任何想法吗?我可以遵循任何参考吗?
到目前为止我所知道的:
- R 包pwr计算 t 检验、单向方差分析和其他检验的功效或样本大小。
- 关于多重比较所需的相对样本量,Witte、Elston 和 Cardon 讨论了在计算多重比较的样本量时使用 Bonferroni 校正的 alpha 值。
编辑 - 2013 年 8 月
这个问题有一些赞成的运动,所以我决定添加更多信息,或者更好地澄清这个话题。
我不太同意发布的两个答案。我不认为这是一个数据挖掘/聚类问题。但可能我没有正确地表达这个问题。那篇论文发表了,所以我不仅可以在这里指出它,还可以讨论我需要什么。
在论文中,我(和同事)基于每个领域 30 名研究人员的随机样本,讨论了不同计算机科学子领域之间生产力和引用之间的差异。该论文包括一个紧凑的字母显示,显示了 20 个 CS 子区域中的任何两个子区域之间的显着差异。但我想展示这些领域之间的重要等价性。考虑到每个领域有 30 个样本点,这两个领域很可能具有相同的生产力或每篇论文的引用相同。
我知道等价测试(或两个单面测试 - TOST)——在 CV 中对此进行了一些讨论,但我在任何地方都没有看到多个等价测试!
我的想法是使用权力是权力的定义= 1-当它为假时接受H0的概率正是我需要说明两个领域具有相同的生产力 - 我声明它们具有相同的生产力( H0)并且该陈述在“功率”置信水平下是正确的!
我仍然不知道该怎么做,而且论文没有声明某些 CS 领域之间可能等效,这实际上是更有趣的结果!
我将再次感谢任何意见或帮助。