机器算法验证 - 置信区间和假设检验有什么区别？ - 吾爱随笔录

置信区间和假设检验有什么区别？

机器算法验证假设检验置信区间

2022-01-18 04:05:07

我读过关于假设检验的争议，一些评论员建议不应使用假设检验。一些评论员建议应该使用置信区间。

置信区间和假设检验有什么区别？参考和示例的解释将不胜感激。

3个回答

您可以使用置信区间 (CI) 进行假设检验。在典型情况下，如果效应的 CI 不跨越 0，那么您可以拒绝原假设。但是 CI 可以用于更多，而报告它是否已通过是测试有用性的限制。

例如，建议您使用 CI 而不是 t 检验的原因是，您可以做的不仅仅是检验假设。您可以就您认为可能的影响范围（CI 中的影响）发表声明。你不能只用 t 检验来做到这一点。您还可以使用它来对 null 进行陈述，这是 t 检验无法做到的。如果 t 检验不拒绝 null，那么您只是说您不能拒绝 null，这并没有说明什么。但是，如果您在 null 周围的置信区间很窄，那么您可以建议 null 或接近它的值可能是真实值，并建议处理的效果或自变量太小而没有意义（或者你的实验没有

稍后添加： 我真的应该这么说，虽然你可以像测试一样使用 CI，但它不是一个。这是对您认为参数值所在范围的估计。你可以像推理一样进行测试，但你最好不要那样谈论它。

哪个更好？

A)效果为 0.6，t (29) = 2.8，p < 0.05。这种具有统计学意义的影响是……（随后就这种统计学意义进行了一些讨论，但没有提及，甚至没有强大的能力来讨论该发现的大小的实际含义……在 Neyman-Pearson 框架下，t的大小和p值几乎毫无意义，您可以讨论的只是效果是否存在。您永远不能真正谈论实际上没有基于测试的效果。）

或者

B)使用 95% 的置信区间，我估计效果在 0.2 和 1.0 之间。（随后进行了一些讨论，讨论了感兴趣的实际效果，是否合理的值是具有任何特定含义的值，以及是否使用了任何有意义的词来准确表达它的意思。此外，CI 的宽度可以直接到讨论这是否是一个强有力的发现，或者你是否只能得出一个更初步的结论）

如果您参加了基础统计课程，您最初可能会倾向于 A。在某些情况下，它可能是报告结果的更好方法。但对于大多数工作而言，B 远远优于其他工作。范围估计不是测试。

假设检验和置信区间之间存在等价性。（参见例如http://en.wikipedia.org/wiki/Confidence_interval#Statistical_hypothesis_testing）我将举一个非常具体的例子。假设我们有和方差 1的正态分布的，我们将其写为。假设我们认为，并且我们想要级别所以我们做一个测试统计，在这种情况下，我们将其作为样本平均值：。现在假设 $x_1, x_2, \ldots, x_n$ $\mu$ $\mathcal N(\mu,1)$ $\mu = m$ $H_0: \mu = m$ $0.05.$ $v = (x_1 + x_2 + \cdots + x_n ) / n$ $A(m)$ 是此测试的“接受区域” 。这意味着是的一组可能值，其中零假设在 0.05 级被接受（我使用“接受”作为“不拒绝”的简写——我不是在暗示你会得出结论原假设是真的。）。对于此示例，我们可以查看正态分布，并选择在此分布下概率至少为 0.95 的任何集合。现在，在中的所有的集合。换句话说，它是所有 $v$ $A(m)$ $v$ $\mu=m$ $\mathcal N(m,1)$ $\mu$ $m$ $v$ $A(m)$ $m$ ，将接受零假设。这就是为什么 John 说“如果效果的 CI 不跨越，那么您可以拒绝原假设。” （约翰指的是测试的情况。） $v$ $0$ $\mu = 0$

一个相关的主题是 p 值。p 值是我们拒绝零假设的检验的最小水平。为了将其与置信区间的讨论联系起来，假设我们得到一个特定的样本平均值，我们从中构建不同大小的置信区间。的 95% 置信区间不包含。级拒绝零假设然后假设我们增加置信区间直到它刚好触及（但不包括）值，并假设这是一个 98% 的置信区间。那么假设的 p值为（我们从中得到 $v$ $\mu$ $m$ $\mu=m$ $0.05.$ $m$ $\mu=m$ $0.02$ $1-0.98$ )。

“学生”主张置信区间，理由是它们可以显示哪些影响更重要，哪些影响更显着。

例如，如果您发现两个效应，第一个效应的财务影响置信区间从 5 英镑到 6 英镑，而第二个效应的置信区间从 200 英镑到 2800 英镑。第一个在统计上更显着，但第二个可能更重要。

其它你可能感兴趣的问题

上一篇hard margin SVM 的损失函数是什么？下一篇区分统计学和机器学习中的两组：假设检验 vs. 分类 vs. 聚类