我读过关于假设检验的争议 ,一些评论员建议不应使用假设检验。一些评论员建议应该使用置信区间。
- 置信区间和假设检验有什么区别?参考和示例的解释将不胜感激。
我读过关于假设检验的争议 ,一些评论员建议不应使用假设检验。一些评论员建议应该使用置信区间。
您可以使用置信区间 (CI) 进行假设检验。在典型情况下,如果效应的 CI 不跨越 0,那么您可以拒绝原假设。但是 CI 可以用于更多,而报告它是否已通过是测试有用性的限制。
例如,建议您使用 CI 而不是 t 检验的原因是,您可以做的不仅仅是检验假设。您可以就您认为可能的影响范围(CI 中的影响)发表声明。你不能只用 t 检验来做到这一点。您还可以使用它来对 null 进行陈述,这是 t 检验无法做到的。如果 t 检验不拒绝 null,那么您只是说您不能拒绝 null,这并没有说明什么。但是,如果您在 null 周围的置信区间很窄,那么您可以建议 null 或接近它的值可能是真实值,并建议处理的效果或自变量太小而没有意义(或者你的实验没有
稍后添加: 我真的应该这么说,虽然你可以像测试一样使用 CI,但它不是一个。这是对您认为参数值所在范围的估计。你可以像推理一样进行测试,但你最好不要那样谈论它。
哪个更好?
A)效果为 0.6,t (29) = 2.8,p < 0.05。这种具有统计学意义的影响是……(随后就这种统计学意义进行了一些讨论,但没有提及,甚至没有强大的能力来讨论该发现的大小的实际含义……在 Neyman-Pearson 框架下,t的大小和p值几乎毫无意义,您可以讨论的只是效果是否存在。您永远不能真正谈论实际上没有基于测试的效果。)
或者
B)使用 95% 的置信区间,我估计效果在 0.2 和 1.0 之间。(随后进行了一些讨论,讨论了感兴趣的实际效果,是否合理的值是具有任何特定含义的值,以及是否使用了任何有意义的词来准确表达它的意思。此外,CI 的宽度可以直接到讨论这是否是一个强有力的发现,或者你是否只能得出一个更初步的结论)
如果您参加了基础统计课程,您最初可能会倾向于 A。在某些情况下,它可能是报告结果的更好方法。但对于大多数工作而言,B 远远优于其他工作。范围估计不是测试。
假设检验和置信区间之间存在等价性。(参见例如http://en.wikipedia.org/wiki/Confidence_interval#Statistical_hypothesis_testing)我将举一个非常具体的例子。假设我们有和方差 1的正态分布的,我们将其写为。假设我们认为,并且我们想要级别所以我们做一个测试统计,在这种情况下,我们将其作为样本平均值:。现在假设是此测试的“接受区域” 。这意味着是的一组可能值,其中零假设在 0.05 级被接受(我使用“接受”作为“不拒绝”的简写——我不是在暗示你会得出结论原假设是真的。)。对于此示例,我们可以查看正态分布,并选择在此分布下概率至少为 0.95 的任何集合。现在,在中的所有的集合。换句话说,它是所有,将接受零假设。这就是为什么 John 说“如果效果的 CI 不跨越,那么您可以拒绝原假设。” (约翰指的是测试的情况。)
一个相关的主题是 p 值。p 值是我们拒绝零假设的检验的最小水平。为了将其与置信区间的讨论联系起来,假设我们得到一个特定的样本平均值,我们从中构建不同大小的置信区间。的 95% 置信区间不包含。级拒绝零假设 然后假设我们增加置信区间直到它刚好触及(但不包括)值,并假设这是一个 98% 的置信区间。那么假设的 p值为(我们从中得到 )。
“学生”主张置信区间,理由是它们可以显示哪些影响更重要,哪些影响更显着。
例如,如果您发现两个效应,第一个效应的财务影响置信区间从 5 英镑到 6 英镑,而第二个效应的置信区间从 200 英镑到 2800 英镑。第一个在统计上更显着,但第二个可能更重要。