我有一个有 130 名参与者的研究,我的大部分分析都涉及检查各种心理变量之间相关性的相对大小。我正在尝试遵守要求作者就他们研究的统计能力发表意见的建议。统计功效侧重于相关性是否显着不同于零,但零假设在我的研究中并不是特别有趣。一切都与一切相关。重要的是相对数量。我想在我的报告的方法部分中谈谈估计真实相关性的精度。
- 当相关性为零或其他一些焦点值时,呈现相关性的 95% 置信区间是一种好方法吗?
- 或者是否有更好的方法来指示给定样本中估计相关性的精度?
我有一个有 130 名参与者的研究,我的大部分分析都涉及检查各种心理变量之间相关性的相对大小。我正在尝试遵守要求作者就他们研究的统计能力发表意见的建议。统计功效侧重于相关性是否显着不同于零,但零假设在我的研究中并不是特别有趣。一切都与一切相关。重要的是相对数量。我想在我的报告的方法部分中谈谈估计真实相关性的精度。
我确实认为围绕参数估计(例如相关性等)构建置信区间是一件好事。我强烈推荐它。此外,我认为观察值是 0 还是任何其他焦点值都无关紧要。如果有人声称他们进行了一项研究并发现相关性为 0,那么您可能想知道我们对该答案的信心程度,而置信区间有助于提供该信息。和之间存在很大差异。
统计功效的概念是在 Neyman-Pearson 框架内定义的。(与 Fisher 方法相比,Neyman-Pearson 框架通常最容易理解;您可以在此处从该角度找到一个很好、快速的 NP 概述。)如果您可以指定 I 类错误率 ( ),则示例大小 ( ) 和候选效应大小 ( ),您可以计算犯第二类错误的概率 ( ) 或正确拒绝原假设的概率 ( )。但如果你对显着性检验不感兴趣,我承认这种权力概念确实变得不那么吸引人了。
但是,我收集您的批评是,在您的域中,永远不会真正等于 0。正如 Meehl (1990) 所指出的,这在观察性研究中很常见。因此,测试是否是测试因果力的底层网络是否完全平衡,这通常不太可能(但请参阅此处和此处了解一些反例)。尽管如此,您可以将任何点值作为您的空值(尽管这在实践中几乎从未发生过)。例如,您可以进行单尾测试以查看(或)是否是 Meehl 估计的“环境相关噪声”水平。
为了完整起见,我说这些话;我并不是要推动您进行重要性测试。您说“重要的是相对数量”,我完全同意这种观点(例如,请参见我的回答)。还有另一个与电源相关的概念,它更适合您的需求。您正在寻找的框架被称为Accuracy in Parameter Estimation或 AIPE (Maxwell et al., 2008),这是我推荐的。你会想看看Ken Kelly的作品,他是这样描述 AIPE 的:
在这个意义上,参数估计的准确性是通过获得足够窄的置信区间来操作的。窄置信区间比宽置信区间或零假设显着性检验提供了更多有关总体参数的信息,因为区间揭示了是否可以拒绝某个零值(通常为零)并定义了合理值的范围对于某个特定置信水平的参数。
参考: