零假设显着性检验的一个基本限制是它不允许研究人员收集支持零假设的证据(来源)
我看到这种说法在多个地方重复出现,但我找不到理由。如果我们进行了一项大型研究,但我们没有找到反对零假设的统计显着证据,那不就是零假设的证据吗?
零假设显着性检验的一个基本限制是它不允许研究人员收集支持零假设的证据(来源)
我看到这种说法在多个地方重复出现,但我找不到理由。如果我们进行了一项大型研究,但我们没有找到反对零假设的统计显着证据,那不就是零假设的证据吗?
未能拒绝原假设是原假设为真的证据,但它可能不是特别好的证据,当然也不能证明原假设。
让我们绕道而行。考虑一下陈词滥调:
没有证据不是没有证据。
尽管它很受欢迎,但这种说法是无稽之谈。如果你寻找某样东西但没有找到,那绝对是它不存在的证据。证据的好坏取决于您的搜索有多彻底。粗略的搜索提供的证据不足;详尽的搜索提供了强有力的证据。
现在,回到假设检验。当您运行假设检验时,您正在寻找零假设不正确的证据。如果你没有找到它,那么这肯定是零假设为真的证据,但这个证据有多强?要知道这一点,您必须知道使您拒绝零假设的证据有多大可能躲过了您的搜索。也就是说,您的测试出现假阴性的概率是多少?这与测试的功率相关(具体来说,它是补码 1-。)
现在,测试的功效以及因此的假阴性率通常取决于您正在寻找的效果的大小。大效应比小效应更容易检测。因此,实验没有单一,因此对于零假设的证据有多强这个问题没有明确的答案。换句话说,总是有一些效应大小足够小,以至于实验不排除它。
从这里开始,有两种方法可以继续。有时您知道您不关心小于某个阈值的效果大小。在这种情况下,您可能应该重新构建您的实验,以使零假设是效果高于该阈值,然后测试该效果低于阈值的替代假设。或者,您可以使用您的结果来设置效果可信大小的界限。你的结论是,效果的大小在某个区间内,有一定的概率。这种方法距离贝叶斯处理仅一步之遥,如果您经常发现自己处于这种情况,您可能想了解更多信息。
对于涉及缺勤测试证据的相关问题,有一个很好的答案,您可能会发现它很有用。
NHST 依赖于 p 值,它告诉我们:假设原假设为真,我们观察数据(或更极端数据)的概率是多少?
我们假设原假设是正确的——NHST 中的原假设是 100% 正确的。小的 p 值告诉我们,如果原假设为真,我们的数据(或更极端的数据)不太可能。
但是大的 p 值告诉我们什么?它告诉我们,给定零假设,我们的数据(或更极端的数据)是可能的。
一般来说,P(A|B) ≠ P(B|A)。
想象一下,您想将较大的 p 值作为原假设的证据。你会依赖这个逻辑:
这采用更一般的形式:
然而,这是错误的,从一个例子可以看出:
地面很可能是湿的,因为下雨了。或者可能是由于洒水器、有人清理排水沟、水管坏了等等。更多极端的例子可以在上面的链接中找到。
这是一个很难掌握的概念。如果我们想要空值的证据,则需要贝叶斯推理。对我来说,这个逻辑最容易理解的解释是 Rouder 等人的。(2016 年)。在论文中推理中有免费午餐吗?发表在《认知科学主题》,第 8 页,第 520–547 页。
要了解假设有什么问题,请参见以下示例:
想象一下动物园里的一个围栏,在那里你看不到它的居民。您想通过将香蕉放入笼子并检查第二天是否消失来检验猴子居住的假设。重复 N 次以增强统计显着性。
现在你可以提出一个零假设:假设围栏里有猴子,它们很可能会找到并吃掉香蕉,所以如果香蕉每天都没有动过,那么里面不可能有猴子。
但现在你看到香蕉(几乎)每天都不见了。这是否告诉你猴子在里面?
当然不是,因为还有其他动物也喜欢香蕉,或者可能是一些细心的动物园管理员每天晚上都会把香蕉拿走。
那么这个逻辑犯了什么错误呢?关键是,如果里面没有猴子,你对香蕉消失的可能性一无所知。为了证实原假设,如果原假设错误,香蕉消失的概率必须很小,但事实并非如此。事实上,如果原假设错误,该事件可能同样可能(甚至更有可能)。
在不知道这个概率的情况下,你可以对原假设的有效性一无所知。如果动物园管理员每天晚上都把香蕉都拿走,那么这个实验就完全没有价值了,尽管乍一看似乎你已经证实了原假设。
在他著名的论文Why Most Published Research Findings Are False中,Ioannidis 使用贝叶斯推理和基本率谬误来论证大多数发现都是误报。简而言之,特定研究假设为真的研究后概率取决于(除其他外)该假设的研究前概率(即基本比率)。
作为回应,Moonesinghe 等人。(2007 年)使用相同的框架来表明复制极大地增加了研究后假设为真的概率。这是有道理的:如果多项研究可以复制某个发现,我们就更确定推测的假设是正确的。
我使用了 Moonesinghe 等人的公式。(2007) 创建一个图表,显示在未能复制发现的情况下的研究后概率。假设某个研究假设有 50% 的预研究概率为真。此外,我假设所有研究都没有偏差(不切实际!)具有 80% 的功效并使用 0.05 的。
该图显示,如果 10 项研究中至少有 5 项未能达到显着性,我们的假设为真的研究后概率几乎为 0。更多研究存在相同的关系。这一发现也具有直观意义:反复未能找到效果加强了我们的信念,即该效果很可能是错误的。这个推理与@RPL 接受的答案一致。
作为第二种情况,我们假设研究的功效只有 50%(其他条件相同)。
现在我们的研究后概率下降得更慢,因为每项研究都只有很低的功效来发现效果,如果它真的存在的话。