既然我已经拒绝了原假设,接下来会发生什么?

机器算法验证 假设检验
2022-02-11 17:14:15

我一次又一次地拒绝未能拒绝零假设。在未能拒绝的情况下,您得出结论认为没有足够的证据可以拒绝并且您“继续”(即,收集更多数据,结束实验等)

但是,当您“确实”拒绝原假设,为替代假设提供一些证据时,您无法真正“证明”您的替代假设确实成立。

那么,一旦你拒绝原假设,接下来的常见步骤是什么?人们采用什么工具/技术来“进一步分析问题”以使更多的发现更具结论性?作为统计学家需要进一步分析的合乎逻辑的“下一步”是什么?

例如:

H0:μ1=μ0

H1:μ1>μ0(假设我们知道预期的方向)

一旦我们在某种程度的显着性上拒绝原假设,我们就有“一些证据”证明替代方案是正确的,但我们无法得出这个结论。如果我真的想得出结论性的结论(请原谅双字游戏)我该怎么办?

我在本科期间从未思考过这个问题,但现在我正在做大量的假设测试,我不禁想知道未来会发生什么:)

4个回答

首先请注意,@Nick Stauner 提出了一些关于可选停止的非常重要的论点。如果您在样本进入时反复测试数据,一旦测试显着就停止,您几乎可以保证获得显着的结果。然而,保证的结果实际上是毫无价值的。

在下文中,我将尽我最大的努力来阐述演绎主义、怀疑主义和证伪主义的立场。它当然不是唯一的,但我认为是相当主流的,或者至少是有点传统的。

据我了解,Fisher 最初引入显着性检验作为数据探索的第一步——确定哪些因素可能值得进一步研究。除非您测试的原假设实际上是您偏爱的理论所依赖的关键假设(不太可能),否则在某种程度上,您的初始测试本质上是相当探索性的。在探索之后的可能步骤中,我看到

  • 进一步探索
  • 参数估计
  • 预测与确认

进一步的探索包括后续测试,在这些测试中,您尝试推断您掌握的任何变量是否会调节或与您的效果相互作用。例如,也许参与者的年龄有影响?请注意,此类分析必须明确标记为探索性的,否则它们基本上等同于撒谎。如果你偶然发现了什么,它首先需要确认。一般来说,你应该始终清楚——无论是在你的思想中,还是在你的著作中——你何时进行探索性工作,何时进行确认。

接下来,一旦您确定您对某个参数的值精确为零没有信心 - 一旦您决定您现在将考虑被测因素有一些影响 - 一个可行的下一步可能是进一步估计精确值的参数例如,目前,您只排除了一个值 0(假设进行了双边测试)。但是,您的数据也对许多其他可能的值产生了怀疑。

一个(100-α)% Confidence Interval/CI包含在 p< 时未拒绝的参数值范围α,对应于您的数据还涉及超出初始 H0 的更多可能假设。由于您的测试很重要,因此与 H0 相关的值不在其中。但也将排除许多极大和极小的值。

休谟有句著名的论点,我们永远无法归纳证明一个陈述是正确的。一般来说,非平凡的假设总是比支持更容易被证伪。原则上容易被证伪(通过不平凡,做出精确的预测),但到目前为止还没有被证伪,这实际上是一个理论的最高美德之一。

所以 CI 不会让你证明一个特定的价值。但是,它缩小了候选集。也许唯一活着的候选人可以帮助您在与 H0 不相容的两种理论之间做出决定。例如,也许 0 被排除在外,但理论 1 预测的值约为 5,理论 2 预测的值约为 15。如果您的 95% CI 包括 5,但不包括 15,那么您现在也对理论 2 失去了信心,但理论1 留在比赛中。请注意,这实际上与您的初始测试是否重要无关 - 即使 0 在未拒绝的值中,许多值也会被拒绝。也许对于其他一些研究人员来说,其中一些值是感兴趣的。

因此,在您对手头的影响有所了解之后,理想情况下,您可以为后续验证性实验做出更精确的预测,该实验旨在测试您可以从当前分析中得出的更精确的假设。诚然,拒绝您最初的统计零假设并不是对您的原始研究假设的严格检验,不是吗?比您喜欢的解释更多的解释不依赖于 H0。此外,由于您从未有实际接受 H0 的危险,因此您无法证伪您偏爱的理论!所以你需要更严格的测试. 可以说,这实际上是您想要的;你不想证明你的理论,你想把它置于越来越严格的测试之下,试图证伪它。承受如此真实(但公平)的努力来反驳它是理论所能提供的最好的。但是对于一个严格的测试,你需要一个比“0 it ain't”更精确的理论。

您现在已经了解了有关验证性研究的多个重要事实;例如,您了解所讨论的方差和影响幅度,从而允许您通过功效分析估计后续研究所需的样本量。您还可以预测一个特定的值,并在它周围假设一个实际等价区域/ROPE。您将永远无法证明这个特定值是真实值;但是,如果后续实验的 CI 完全落在你的 ROPE 之内,那么你的理论就有确凿的证据(并可能给竞争带来麻烦)。

您通常可以继续改进对您可能使用更多数据测试的任何参数的估计。一旦测试达到某种半任意程度的显着性,就停止数据收集是做出错误推断的好方法。分析师可能会将重要结果误解为工作已完成的标志,这是 Neyman-Pearson 框架的许多意外后果之一,根据该框架,人们将p值解释为根据以下条件毫无保留地拒绝或未能拒绝 null 的原因他们落在临界阈值的哪一边。

在不考虑频率论范式的贝叶斯替代方案(希望其他人会)的情况下,置信区间继续提供更多信息,远远超出可以拒绝基本零假设的点。假设收集更多数据只会使您的基本显着性检验达到更大的显着性(并且不会揭示您之前的显着性发现是误报),您可能会发现这无用,因为您会拒绝任何一种方式。但是,在这种情况下,您围绕相关参数的置信区间将继续缩小,从而提高您可以准确描述感兴趣人群的置信度。


这是一个非常简单的例子– 检验原假设μ=0对于模拟变量:

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

在这里我刚刚使用t.test(rnorm(99)),我碰巧得到了一个误报(假设我已经默认为α=.05作为我可接受的误报率的选择)。如果我忽略置信区间,我可以声称我的样本来自一个均值显着不同于零的总体。从技术上讲,置信区间也没有对此提出异议,但它表明平均值可能非常接近于零,甚至比我根据这个样本认为的更远。当然,我知道这里的 null 实际上是真的,因为总体的平均值rnorm默认为零,但很少有人知道真实数据。

再次运行此程序set.seed(8);t.test(rnorm(99,1))会产生 0.91 的样本均值、p = 5.3E-13 和 95% 的置信区间μ=[.69,1.12]. 这一次我可以确信 null 是错误的,尤其是因为我通过将模拟数据的平均值设置为 1 来构造它。

不过,说重要的是要知道它与零有多大不同;也许 0.8 的平均值太接近于零,以至于差异无关紧要。我可以看到我没有足够的数据来排除以下可能性μ=.8从我的置信区间和t检验mu=.8得出p = .33。不过,根据这个 0.8 的阈值,我的样本平均值足够高,看起来与零有明显的不同;收集更多数据有助于提高我对差异至少有这么大的信心,而不仅仅是微不足道地大于零。

由于我通过模拟“收集数据”,我可能有点不切实际,并将我的样本量增加一个数量级。运行set.seed(8);t.test(rnorm(999,1),mu=.8)表明,在拒绝原假设后,更多数据仍然有用μ=0在这种情况下,因为我现在可以拒绝 nullμ=.8用我更大的样本。的置信区间μ=[.90,1.02]甚至暗示我可以拒绝零假设μ=.89如果我一开始就打算这样做的话。

我不能在事后修改我的零假设,但是在这个结果之后没有收集新数据来测试一个更强大的假设,我可以有 95% 的信心说,复制我的“研究”会让我拒绝一个H0:μ=.9. 再次,仅仅因为我可以轻松地模拟这个,我将重新运行代码set.seed(9);t.test(rnorm(999,1),mu=.9):这样做表明我的信心没有放错地方。

逐步测试更严格的零假设,或者更好的是,简单地专注于缩小置信区间只是继续进行的一种方法。当然,大多数拒绝零假设的研究为基于替代假设的其他研究奠定了基础。例如,如果我正在测试相关性大于零的替代假设,我可以在接下来的后续研究中测试调解人或调解人......当我这样做时,我肯定想确保我可以复制原始结果。


另一种要考虑的方法是测试。如果您想得出一个参数在某个可能值范围内的结论,而不仅仅是不同于单个值,您可以根据您的传统备择假设指定您希望参数位于该范围内的值并对其进行测试反对一组不同的无效假设,这些假设共同表示参数位于该范围之外的可能性。这最后一种可能性可能与您在编写时的想法最相似:

我们有“一些证据”证明替代方案是正确的,但我们无法得出这个结论。如果我真的想得出结论性的结论...

这是一个使用与上述类似数据的示例(使用set.seed(8),rnorm(99)与 相同rnorm(99,1)-1,因此样本平均值为 -.09)。假设我想检验两个单边t检验的原假设,它们共同假设样本均值不在 -.2 和 .2 之间。这与前面示例的前提大致对应,根据该前提我想测试是否μ=.8. 不同之处在于我将数据向下移动了 1,现在我将对备择假设执行两个单边检验.2μ.2. 看起来是这样的:

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tost将区间的置信水平设置为 90%,因此样本均值 -.09 附近的置信区间为μ=[.27,.09], p = .17。但是,使用(和相同的种子)再次运行它rnorm(999)会将 90% 的置信区间缩小到μ=[.09,.01],在p = 4.55E-07的零假设中指定的等价范围内。

我仍然认为置信区间比等价检验结果更有趣。它代表了数据表明总体平均值比备择假设更具体的情况,并且表明我可以有理由相信它位于比我在备择假设中指定的更小的区间内。为了演示,我将再次滥用我不切实际的模拟能力并使用“复制” set.seed(7);tost(rnorm(999),epsilon=.09345092):果然,p = .002。

你不能证明一个肯定的科学命题,而只能反驳一个命题,这是波普尔证伪主义的一个原则。我同意你不能证明一个效果完全等于任何给定的点值(参见我在这里的回答:为什么统计学家说一个不显着的结果意味着“你不能拒绝零”而不是接受零假设?)。但那又怎样?

人们(或至少)对假设检验有很多抱怨。这是因为p-值通常被误解,假设检验用于逻辑上无法完成的任务。例如,假设检验不应用于生成假设或选择变量。此外,对于观测数据,基本上所有“零”零假设都必须是错误的,因此测试这样的假设毫无意义。然而,科学家们经常有他们想要测试的当前理论提出的先验假设,并且在真实的实验中,零零可能是正确的,因此测试它是完全合理的。通常,研究人员确实有一些理由怀疑 null 可能是错误的,因此与强大的实验相结合的重要结果是一条有效的信息。

您始终可以形成置信区间以更清楚地了解您的估计精度,并继续收集更多数据以提高其精度。尽管如此,从经济角度来看,您将获得递减收益在某些时候,您根本不相信零假设对所研究的现象提供了合理的解释。在这种情况下,你为什么要打扰?

如果您所在领域的其他人尚未被说服,但会拥有更多(相同的)数据,那么您可以继续,但这似乎是一种不常见的情况。在我看来,怀疑论者似乎更有可能对这条调查线是否对潜在问题提供足够的信息有其他实质性的担忧。因此,您需要确定这些问题的性质,如果您认为它们值得开展工作,请寻找更充分地解决手头问题的不同数据。例如,您可能会尝试使用不同的度量、在不同的设置中和/或使用不同的控制条件来复制发现。

另一方面,每个人(或多或少)都可能对您的数据和结论感到满意(恭喜!)。在如此愉快的情况下,您可以追求两个方向来推进您的研究计划:

  1. 还原论方法将寻求了解产生您已建立的效果的机制。在统计术语中,您通常会寻求中介和/或对连接您已证明相关 的变量的因果力量模式的改进。

  2. 您还可以通过寻求将您的发现整合到更大的模式中来朝着另一个方向发展。这是一种系统思维GH Hardy曾经将一个理论的优雅定义为它可以解释的一系列现象,以及它引起的认知转变的容易程度和幅度。当然,你可能没有那么幸运,你所建立的现象相当深刻,但它仍然可以是比它本身更大的事物的一部分。之间建立联系BC这使得有可能看到A将不同的现象统一起来对这个过程同样重要,同样也是一个结晶的时刻,就像发现A本身。

tl;dr:如果您有足够的证据证明 null 是错误的,请找出您可以尝试回答的其他哪些理论上的问题并继续前进。

我想补充的一个想法是,你的问题让我想起了年轻的自己:我拼命想证明我的假设,因为我没有如何以有助于改进我正在写的论文的方式写“假设是错误的” . 但后来我意识到“该死的我绝对可爱的假设无法被证明”也具有科学价值: 1. 想想为什么你的假设不成立。是数据有问题,还是假设本身有问题?2. 旧研究的后果是什么?

举个例子:我使用一个比以前的数据集更大的新数据集写了关于种族融合的硕士论文。我测试了几个有争议的假设,例如“石油燃料种族冲突”或“山区更容易发生冲突”。我无法证明石油助长了种族冲突——但我写了两页关于可用石油数据集的质量如何影响分析的文章(数据集本身是时间序列,油井数据集不是)。“山脉引起冲突”的论点也是失败的——但却是一个富有成果的论点:之前的研究用国家层面的数据(例如国家的平均高度左右)分析了这个论点,

请记住:反驳假设不是失败,而是与已证明的假设一样好的结果。