哪一个是零假设?科学理论、逻辑和统计学之间的冲突?

机器算法验证 假设检验 哲学的
2022-01-30 06:16:23

我很难理解设置零假设的基本逻辑。在这个答案中,显然普遍接受的命题是,零假设是没有效果的假设,一切都保持不变,也就是说,太阳底下没有新鲜事。

替代假设是你试图证明的,例如一种新药兑现了它的承诺。

现在从科学理论和一般逻辑来看,我们知道我们只能证伪命题,我们无法证明某事(没有多少白天鹅可以证明所有天鹅都是白色的,但一只黑天鹅可以反驳它)。这就是为什么我们试图反驳原假设,这并不等同于证明替代假设——这就是我的怀疑开始的地方——我将举一个简单的例子:

假设我想知道窗帘后面是什么动物。不幸的是,我无法直接观察这只动物,但我有一个测试可以告诉我这只动物的腿数。现在我有以下逻辑推理:

如果动物是狗,那么它将有 4 条腿。

如果我进行测试并发现它有 4 条腿,这并不能证明它是狗(它可以是马、犀牛或任何其他 4 条腿动物)。但是,如果我发现它没有4 条腿,这就是它不可能是狗的明确证据(假设是一只健康的动物)。

翻译成药效我想看看幕后的药是否有效。我唯一会得到的是一个给我效果的数字。如果效果是正面的,则没有任何证据(4 条腿)。如果没有效果,我会反驳药物的有效性。

说了这一切,我认为——与常识相反——唯一有效的零假设必须是

药物有效(即:如果药物有效,您将看到效果)。

因为这是我唯一可以反驳的事情——直到下一轮我尝试更具体等等。因此,说明效果的是原假设,而备择假设是默认假设(无效果)。

为什么统计测试似乎倒退了?

PS:您甚至不能否定上述假设以获得有效的等效假设,因此您不能说“药物无效”作为零假设,因为唯一的逻辑等效形式是“如果您没有看到任何效果,药物不会有效”,这会让您无处可去,因为现在结论就是您想要找出的!

PPS:仅在阅读到目前为止的答案后进行澄清:如果您接受科学理论,即您只能伪造陈述而不能证明它们,那么唯一在逻辑上一致的就是选择零假设作为新理论-然后可以伪造。因为如果你伪造现状,你就会两手空空(现状被证伪,但新理论远未得到证实!)。如果你不能伪造它,你也不会处于更好的位置。

4个回答

在统计中,有等价测试以及更常见的测试 Null 并决定是否有足够的证据反对它。等效性测试完全颠覆了这一点,并假定效果与 Null 不同,我们确定是否有足够的证据反对该 Null。

我不清楚你的药物例子。如果响应是效果的值/指示符,则效果 0 表示无效。有人会将其设置为 Null 并评估反对这一点的证据。如果效果与零有很大差异,我们将得出结论,无效假设与数据不一致。双尾检验将计算足够负的效果值作为反对 Null 的证据。单尾测试,效果是积极的并且与零有很大不同,可能是一个更有趣的测试。

如果您想测试效果是否为 0,那么我们需要将其翻转并使用等效测试,其中 H0 是效果不等于 0,另一种选择是 H1 = 效果 = 0。将针对效果不同于 0 的观点评估证据。

我认为这是另一种情况,常客统计无法直接回答您实际想问的问题,因此回答了一个(不是这样)微妙不同的问题,很容易将其误解为直接回答你真正想问的问题。

我们真正想问的通常是备择假设为真的概率是多少(或者它比原假设更可能为真)。然而,频率分析从根本上无法回答这个问题,因为对于频率分析,概率是长期频率,在这种情况下,我们对特定假设的真实性感兴趣,该假设没有长期频率 - 它要么是真或不是。另一方面,贝叶斯可以直接回答这个问题,因为对于贝叶斯来说,概率是对某个命题的合理性的度量,因此在贝叶斯分析中将概率分配给特定假设的真实性是完全合理的。

常客处理特定事件的方式是将它们视为来自某些(可能是虚构的)总体的样本,并就该总体做出陈述以代替对特定样本的陈述。例如,如果您想知道特定硬币有偏差的概率,在观察 N 次翻转并观察 h 正面和 t 反面之后,频率分析无法回答这个问题,但是他们可以告诉您硬币的比例来自无偏硬币,当翻转 N 次时会产生 h 或更多正面。由于我们在日常生活中使用的概率的自然定义通常是贝叶斯的,而不是常客的,因此很容易将其视为零假设(硬币无偏)为真的概率。

本质上,频率论假设检验有一个隐含的主观贝叶斯成分潜伏在其核心。常客检验可以告诉您在零假设下至少观察到极端统计数据的可能性,但是基于这些理由拒绝零假设的决定完全是主观的,您没有合理的要求这样做。本质上的经验表明,如果 p 值足够小(同样阈值是主观的),我们通常会在合理的基础上拒绝零值,这就是传统。AFAICS 它不太适合科学哲学或科学理论,它本质上是一种启发式方法。

但这并不意味着这是一件坏事,尽管频率论假设检验存在缺陷,但它为我们的研究提供了一个必须克服的障碍,这有助于我们作为科学家保持自我怀疑,而不是对我们的理论充满热情。因此,虽然我本质上是贝叶斯主义者,但我仍然定期使用常客假设检验(至少在期刊审稿人对贝叶斯替代方案感到满意之前)。

为了补充加文的答案,有几件事:

首先,我听说过这样的想法,即命题只能被证伪,而不能被证明。你能否发布一个讨论这个问题的链接,因为我们在这里的措辞似乎不太适合 - 如果 X 是一个命题,那么 not(X) 也是一个命题。如果反驳命题是可能的,那么反驳 X 与证明 not(X) 相同,并且我们已经证明了一个命题。

其次,您在 P(effective| ) 和 P(dog|4 腿) 之间的类比很有趣。措辞应该稍微改变一下:test+

药物有效(即:如果药物有效,您将看到效果)。

事实上,只要你使用假设检验和正确的统计模型 ) 往往大于 P(假设检验形式化了下阳性检验结果的可能性。但是有效的药物并不能保证检测呈阳性。当药物有效且方差很大时,可以在测试中掩盖效果。 test+test+H0

如果您观察您可以推断出有效性,因为替代方案是,并且设置了假设检验,使得 P( | ) < 0.05。test+H0test+H0

所以狗案与有效性案的区别在于从证据到结论的推论是否恰当。在狗的案例中,您观察到了一些并不强烈暗示狗的证据。但在临床试验案例中,您观察到了一些强烈暗示疗效的证据。

你是对的,从某种意义上说,常客假设检验倒退了。我并不是说这种方法是错误的,而是结果通常不是为了回答研究人员最感兴趣的问题而设计的。如果您想要一种更类似于科学方法的技术,请尝试贝叶斯推理

与谈论您可以拒绝或无法拒绝的“零假设”不同,使用贝叶斯推理,您可以从基于您对当前情况的理解的先验概率分布开始。当您获得新证据时,贝叶斯推理为您提供了一个框架,让您可以根据考虑的证据更新您的信念。我认为这与科学的运作方式更相似。