根据 Fritz、Morris 和 Richler(2011 年;见下文), 将r计算为 Mann-Whitney U 检验的效应大小。 我,正如我在其他场合报告那样。除了效果大小测量之外,我还想报告
这是我的问题:
- 我可以像 Pearson 的 r 一样计算 r 的置信区间,尽管它被用作非参数检验的效应大小度量吗?
- 单尾与双尾检验的置信区间是多少?
关于第二个问题的编辑:“对于单尾与双尾测试,必须报告哪些置信区间?”
我发现了一些更多信息,恕我直言可能会回答这个问题。“虽然双边置信限形成置信区间,但它们的单边对应物被称为置信上限或下限。” (http://en.wikipedia.org/wiki/Confidence_interval)。从这些信息中,我得出结论,主要问题不是显着性检验(例如,检验)是单尾还是双尾,而是人们对效应大小的 CI 感兴趣的信息。我的结论(如果您不同意,请纠正我):
- 双边 CI对上限和下限感兴趣(因此,尽管单尾显着性检验 p < .05,但双边 CI 可能需要 0,尤其是在值接近.05.)
- 单面“CI”只对上限或下限感兴趣(由于理论推理);然而,这不一定是检验有向假设后感兴趣的主要问题。如果重点放在效应大小的可能范围上,则两侧 CI 是非常合适的。对?
见下文 Fritz, Morris, & Richler (2011) 关于 Mann-Whitney 检验的效应量估计的文本段落,来自我上面提到的文章。
“我们在这里描述的大多数效应量估计都假设数据具有正态分布。但是,有些数据不符合参数检验的要求,例如,序数而非区间尺度的数据。对于此类数据,研究人员通常转向非参数统计检验,例如 Mann-Whitney 和 Wilcoxon 检验。这些检验的显着性通常通过在样本量不太小时分布来评估,并且统计运行这些测试的软件包,例如 SPSS,除了或值;也可以手工计算(例如,Siegel & Castellan,1988)。值可以用来计算一个效应大小,例如Cohen (1988) 提出Cohen 对 r 的指导是大效应是 0.5,中等效应是 0.3,小效应是 0.1(Coolican, 2009, p. 395)。从这些、或很容易,因为 和
尽管公式中存在 N,但这些效应量估计值仍然独立于样本量。这是因为 z 对样本大小很敏感;除以 N 的函数可从结果效应量估计中消除样本量的影响。”(第 12 页)