您通常可以继续改进对您可能使用更多数据测试的任何参数的估计。一旦测试达到某种半任意程度的显着性,就停止数据收集是做出错误推断的好方法。分析师可能会将重要结果误解为工作已完成的标志,这是 Neyman-Pearson 框架的许多意外后果之一,根据该框架,人们将p值解释为根据以下条件毫无保留地拒绝或未能拒绝 null 的原因他们落在临界阈值的哪一边。
在不考虑频率论范式的贝叶斯替代方案(希望其他人会)的情况下,置信区间继续提供更多信息,远远超出可以拒绝基本零假设的点。假设收集更多数据只会使您的基本显着性检验达到更大的显着性(并且不会揭示您之前的显着性发现是误报),您可能会发现这无用,因为您会拒绝任何一种方式。但是,在这种情况下,您围绕相关参数的置信区间将继续缩小,从而提高您可以准确描述感兴趣人群的置信度。
这是一个非常简单的例子r– 检验原假设μ=0对于模拟变量:
One Sample t-test
data: rnorm(99)
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.377762241 -0.006780574
sample estimates:
mean of x
-0.1922714
在这里我刚刚使用t.test(rnorm(99))
,我碰巧得到了一个误报(假设我已经默认为α=.05作为我可接受的误报率的选择)。如果我忽略置信区间,我可以声称我的样本来自一个均值显着不同于零的总体。从技术上讲,置信区间也没有对此提出异议,但它表明平均值可能非常接近于零,甚至比我根据这个样本认为的更远。当然,我知道这里的 null 实际上是真的,因为总体的平均值rnorm
默认为零,但很少有人知道真实数据。
再次运行此程序set.seed(8);t.test(rnorm(99,1))
会产生 0.91 的样本均值、p = 5.3E-13 和 95% 的置信区间μ=[.69,1.12]. 这一次我可以确信 null 是错误的,尤其是因为我通过将模拟数据的平均值设置为 1 来构造它。
不过,说重要的是要知道它与零有多大不同;也许 0.8 的平均值太接近于零,以至于差异无关紧要。我可以看到我没有足够的数据来排除以下可能性μ=.8从我的置信区间和t检验mu=.8
得出p = .33。不过,根据这个 0.8 的阈值,我的样本平均值足够高,看起来与零有明显的不同;收集更多数据有助于提高我对差异至少有这么大的信心,而不仅仅是微不足道地大于零。
由于我通过模拟“收集数据”,我可能有点不切实际,并将我的样本量增加一个数量级。运行set.seed(8);t.test(rnorm(999,1),mu=.8)
表明,在拒绝原假设后,更多数据仍然有用μ=0在这种情况下,因为我现在可以拒绝 nullμ=.8用我更大的样本。的置信区间μ=[.90,1.02]甚至暗示我可以拒绝零假设μ=.89如果我一开始就打算这样做的话。
我不能在事后修改我的零假设,但是在这个结果之后没有收集新数据来测试一个更强大的假设,我可以有 95% 的信心说,复制我的“研究”会让我拒绝一个H0:μ=.9. 再次,仅仅因为我可以轻松地模拟这个,我将重新运行代码set.seed(9);t.test(rnorm(999,1),mu=.9)
:这样做表明我的信心没有放错地方。
逐步测试更严格的零假设,或者更好的是,简单地专注于缩小置信区间只是继续进行的一种方法。当然,大多数拒绝零假设的研究为基于替代假设的其他研究奠定了基础。例如,如果我正在测试相关性大于零的替代假设,我可以在接下来的后续研究中测试调解人或调解人......当我这样做时,我肯定想确保我可以复制原始结果。
另一种要考虑的方法是等价测试。如果您想得出一个参数在某个可能值范围内的结论,而不仅仅是不同于单个值,您可以根据您的传统备择假设指定您希望参数位于该范围内的值并对其进行测试反对一组不同的无效假设,这些假设共同表示参数位于该范围之外的可能性。这最后一种可能性可能与您在编写时的想法最相似:
我们有“一些证据”证明替代方案是正确的,但我们无法得出这个结论。如果我真的想得出结论性的结论...
这是一个使用与上述类似数据的示例(使用set.seed(8)
,rnorm(99)
与 相同rnorm(99,1)-1
,因此样本平均值为 -.09)。假设我想检验两个单边t检验的原假设,它们共同假设样本均值不在 -.2 和 .2 之间。这与前面示例的前提大致对应,根据该前提我想测试是否μ=.8. 不同之处在于我将数据向下移动了 1,现在我将对备择假设执行两个单边检验−.2≤μ≤.2. 看起来是这样的:
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
将区间的置信水平设置为 90%,因此样本均值 -.09 附近的置信区间为μ=[−.27,.09], p = .17。但是,使用(和相同的种子)再次运行它rnorm(999)
会将 90% 的置信区间缩小到μ=[−.09,.01],在p = 4.55E-07的零假设中指定的等价范围内。
我仍然认为置信区间比等价检验结果更有趣。它代表了数据表明总体平均值比备择假设更具体的情况,并且表明我可以有理由相信它位于比我在备择假设中指定的更小的区间内。为了演示,我将再次滥用我不切实际的模拟能力并使用“复制” set.seed(7);tost(rnorm(999),epsilon=.09345092)
:果然,p = .002。