置信区间和假设检验有什么区别?

机器算法验证 假设检验 置信区间
2022-01-18 04:05:07

我读过关于假设检验的争议 ,一些评论员建议不应使用假设检验。一些评论员建议应该使用置信区间。

  • 置信区间和假设检验有什么区别?参考和示例的解释将不胜感激。
3个回答

您可以使用置信区间 (CI) 进行假设检验。在典型情况下,如果效应的 CI 不跨越 0,那么您可以拒绝原假设。但是 CI 可以用于更多,而报告它是否已通过是测试有用性的限制。

例如,建议您使用 CI 而不是 t 检验的原因是,您可以做的不仅仅是检验假设。您可以就您认为可能的影响范围(CI 中的影响)发表声明。你不能只用 t 检验来做到这一点。您还可以使用它来对 null 进行陈述,这是 t 检验无法做到的。如果 t 检验不拒绝 null,那么您只是说您不能拒绝 null,这并没有说明什么。但是,如果您在 null 周围的置信区间很窄,那么您可以建议 null 或接近它的值可能是真实值,并建议处理的效果或自变量太小而没有意义(或者你的实验没有

稍后添加: 我真的应该这么说,虽然你可以像测试一样使用 CI,但它不是一个。这是对您认为参数值所在范围的估计。你可以像推理一样进行测试,但你最好不要那样谈论它。

哪个更好?

A)效果为 0.6,t (29) = 2.8,p < 0.05。这种具有统计学意义的影响是……(随后就这种统计学意义进行了一些讨论,但没有提及,甚至没有强大的能力来讨论该发现的大小的实际含义……在 Neyman-Pearson 框架下,t的大小和p值几乎毫无意义,您可以讨论的只是效果是否存在。您永远不能真正谈论实际上没有基于测试的效果。)

或者

B)使用 95% 的置信区间,我估计效果在 0.2 和 1.0 之间。(随后进行了一些讨论,讨论了感兴趣的实际效果,是否合理的值是具有任何特定含义的值,以及是否使用了任何有意义的词来准确表达它的意思。此外,CI 的宽度可以直接到讨论这是否是一个强有力的发现,或者你是否只能得出一个更初步的结论)

如果您参加了基础统计课程,您最初可能会倾向于 A。在某些情况下,它可能是报告结果的更好方法。但对于大多数工作而言,B 远远优于其他工作。范围估计不是测试。

假设检验和置信区间之间存在等价性。(参见例如http://en.wikipedia.org/wiki/Confidence_interval#Statistical_hypothesis_testing)我将举一个非常具体的例子。假设我们有和方差 1的正态分布的,我们将其写为假设我们认为,并且我们想要级别所以我们做一个测试统计,在这种情况下,我们将其作为样本平均值:现在假设x1,x2,,xnμN(μ,1)μ=mH0:μ=m0.05.v=(x1+x2++xn)/nA(m)是此测试的“接受区域” 。这意味着的一组可能值,其中零假设在 0.05 级被接受(我使用“接受”作为“不拒绝”的简写——我不是在暗示你会得出结论原假设是真的。)。对于此示例,我们可以查看正态分布,并选择在此分布下概率至少为 0.95 的任何集合。现在,中的所有的集合换句话说,它是所有vA(m)vμ=mN(m,1)μmvA(m)m,将接受零假设这就是为什么 John 说“如果效果的 CI 不跨越,那么您可以拒绝原假设。” (约翰指的是测试的情况。)v0μ=0

一个相关的主题是 p 值。p 值是我们拒绝零假设的检验的最小水平。为了将其与置信区间的讨论联系起来,假设我们得到一个特定的样本平均值,我们从中构建不同大小的置信区间。的 95% 置信区间不包含拒绝零假设 然后假设我们增加置信区间直到它刚好触及(但不包括)值,并假设这是一个 98% 的置信区间。那么假设的 p值为(我们从中得到vμmμ=m0.05.mμ=m0.0210.98 )。

“学生”主张置信区间,理由是它们可以显示哪些影响更重要,哪些影响更显着。

例如,如果您发现两个效应,第一个效应的财务影响置信区间从 5 英镑到 6 英镑,而第二个效应的置信区间从 200 英镑到 2800 英镑。第一个在统计上更显着,但第二个可能更重要。