为什么统计学家说一个不显着的结果意味着“你不能拒绝零”而不是接受零假设?

机器算法验证 假设检验 统计学意义 置信区间 等价 托斯特
2022-02-09 07:24:57

传统的统计检验,如两样本 t 检验,侧重于试图消除两个独立样本的函数之间没有差异的假设。然后,我们选择一个置信水平,如果均值的差异超过 95% 的水平,我们可以拒绝原假设。如果不是,我们“不能拒绝原假设”。这似乎意味着我们也不能接受。这是否意味着我们不确定原假设是否为真?

现在,我想设计一个测试,我的假设是两个样本的函数相同(这与假设两个样本不同的传统统计测试相反)。所以,我的零假设变成了两个样本不同。我应该如何设计这样的测试?会不会这么简单,如果 p 值小于 5%,我们可以接受没有显着差异的假设?

4个回答

传统上,原假设是一个点值。(它通常是,但实际上可以是任何点值。)另一种假设是真值是除空值之外的任何值由于连续变量(例如均值差)可以取一个无限接近零值但仍不完全相等的值,从而使零假设为假,因此无法证明传统的点零假设。 0

想象一下您的零假设是,而您观察到的平均差是假设原假设为真是否合理?你还不知道;了解我们的置信区间是什么样子会很有帮助假设您的 95% 置信区间为现在,我们是否应该得出真实值是的结论?这么说我会觉得不舒服,因为 CI 非常宽,并且有很多很大的非零值,我们可能会合理地怀疑这些值与我们的数据一致。假设我们收集了很多很多的数据,现在我们观察到的平均差是,但 95% CI 是00.01(4.99, 5.01)00.01(0.005, 0.015). 观察到的平均差异保持不变(如果它真的发生,那将是惊人的),但置信区间现在排除了空值。当然,这只是一个思想实验,但应该把基本的思路讲清楚。我们永远无法证明真实值是任何特定的点值;我们只能(可能)反驳它是某个点值。在统计假设检验中,p 值 > 0.05(并且 95% CI 包括零)这一事实意味着我们不确定原假设是否为真

至于您的具体情况,您不能构建一个测试,其中备择假设是平均差为,而原假设不是零。这违反了假设检验的逻辑。它是您的实质性科学假设是完全合理的,但它不能成为您在假设检验情况下的替代假设。 0

所以,你可以做什么?在这种情况下,您使用等价测试。(您可能希望通过单击标记。)典型的策略是使用两个单边测试方法。非常简单地说,您选择一个区间,在该区间内,您认为真实的平均差也可能为,然后您执行单边检验以确定观察值是否小于该值的上限间隔,以及另一个单边测试,看它是否大于下限。如果这两个检验都显着,那么您拒绝了真实值超出您关心的区间的假设。如果一个(或两个)都不显着,则您无法拒绝真实值在区间之外的假设。 0

例如,假设区间内的任何值都非常接近于零,以至于您认为出于您的目的它基本上与零相同,因此您将其用作您的实质性假设。现在想象你得到了上面描述的第一个结果。尽管落在该区间内,但您将无法在任一单侧 t 检验中拒绝原假设,因此您将无法拒绝原假设。另一方面,假设您得到了上述第二个结果。现在你发现观测值落在指定区间内,可以证明它既小于上界又大于下界,所以可以拒绝空值。(值得注意的是,您可以同时拒绝两者(0.02, 0.02)0.01真值是的假设,以及之外的假设,乍一看可能令人费解,但与假设检验的逻辑完全一致。) 0(0.02, 0.02)

考虑零假设是硬币有 2 个正面的情况,即正面的概率为 1。现在数据是一次抛硬币并看到正面的结果。这导致 p 值为 1.0,大于每个合理的 alpha。这是否意味着硬币是 2 面的?可能是这样,但它也可能是一枚公平的硬币,我们看到正面是偶然的(50% 的时间会出现在一枚公平的硬币上)。所以这种情况下的高 p 值表示观察到的数据与空值完全一致,但也与其他可能性一致。

就像法庭上的“无罪”判决可能意味着被告是无辜的,也可能是因为被告有罪但没有足够的证据。与原假设相同,我们无法拒绝,因为原假设可能是真的,或者即使它是错误的,我们也可能没有足够的证据来拒绝。

没有证据并不是没有证据的证据(Altman,Bland 论文的标题,关于 BMJ)。只有当我们认为 P 值显着时,P 值才能为我们提供缺失的证据。否则,他们什么也不会告诉我们。因此,缺乏证据。换句话说:我们不知道,更多的数据可能会有所帮助。

零假设,H0, 通常被认为是你有理由假设的事情。通常,您希望展示的“当前知识状态”在统计上是不可能的。

假设检验的通常设置是最小化类型 I 错误,即最小化我们拒绝原假设以支持替代假设的机会H1虽然H0是真的。这是我们选择首先最小化的错误,因为我们不想在常识确实为真时推翻常识。

您应该始终牢记设计您的测试H0应该是你所期望的。

如果我们有两个样本,我们期望它们是相同分布的,那么我们的零假设是样本是相同的。如果我们有两个我们期望(非常)不同的样本,我们的零假设是它们是不同的。