了解如何在两侧假设检验中计算 p 值时找到更多“极端”值

机器算法验证 假设检验 统计学意义 p 值 推理 似然比
2022-03-14 18:58:14

在假设检验中,p 值的定义是在假设原假设正确的情况下,获得至少与实际观察到的结果一样极端的检验结果的概率。

现在,我对“极端”含义的理解基于@whuber在统计测试中 p 值和 t 值的含义是什么?. 他们指出,“更极端”的值是指 x 值,在该值处,x 处的似然比(零下的似然与替代下的似然之比)大于为检验统计量观察到的特定值的似然比.

对于单方面的假设检验,这种“极端”的定义对我来说是有意义的。但是,在考虑双面测试时,我仍然不确定如何找到“更极端”的值。让我用一个例子来说明。

假设我们抛硬币 10 次,假设每次抛硬币正面朝上的概率是 p。假设我们的检验统计量是正面的总数,在原假设下应该遵循二项式 (10,0.3) 分布。假设我们观察到 5 个正面。我明白为什么在计算 p 值时,我们需要包括获得至少 5 个正面的概率,因为 x=5,6,7,...,10 处的似然比都大于或等于似然比为 5。H0:p=0.3H1:p0.3

现在,我周围的人告诉我,x=0 和 x=1 也被认为至少与 x=5 一样极端。所以这是我的问题:为什么 x=0 和 1 的值被认为与 5 一样极端?我似乎无法使用“极值”的似然比定义来理解为什么 0 和 1 被认为与 5 一样极端。任何帮助将不胜感激。如果您不想使用@whuber 的极端定义,那很好,但请说明您对极端的定义。

1个回答

的零假设下投掷硬币次,则以下是个正面的概率:0,1,,10n=10p=0.3

概率

因此,让我们假设我们已经观察到正面并希望进行双边测试。我已经用红色水平虚线的零假设下看看那条线下面的条形图。n=5k=5p=0.3

什么是极端结果?这是一个不太可能的事情。看概率。的结果的结果更不可能,因此它提供了更多反对零假设的证据。的结果也是如此因此,这些都至少与观察到的一样不可能,即至少与极端一样k=6k=5k=7,,10k=5

但是的结果也至少与一样不可能。如果我们用两种不同的硬币进行了两次实验,并且在一个实验中观察到而在另一个实验中,那么我们在第二次拒绝零假设方面会比在第一次更有信心。k=0k=5k=5k=0

特别是,当只运行一次实验(并进行双面测试)时,我们需要包括所有至少与我们在计算值时实际观察到的事件一样不可能的事件。p

请注意,这并不支持在我们的计算中包含(稍微)不太可能然而,原假设下的概率差异非常小,因此可以合理地争辩说,观察提供的反对原假设的证据几乎与一样多,因此我们应该将其包括在计算值中.k=1k=5k=1k=5p