解释双尾检验

机器算法验证 假设检验 p 值 教学 常问问题
2022-02-07 20:45:58

我正在寻找各种方式向我的学生(在基础统计学课程中)解释什么是双尾测试,以及如何计算其 P 值。

您如何向您的学生解释双尾测试?

2个回答

这是一个很好的问题,我期待每个人解释 p 值和双尾与单尾检验的版本。我一直在教整形外科医生的统计数据,因此我尽量保持基础,因为他们中的大多数人已经有 10-30 年没有做过任何高级数学了。

我解释计算 p 值和尾部的方式

我首先解释说,如果我们相信我们有一枚公平的硬币,我们就知道它应该以平均 50% 的翻转率结束 ( )。现在,如果您想知道用这个公平的硬币在 10 次翻转中只得到 2 次反面的概率是多少,您可以像我在条形图中所做的那样计算该概率。从图中可以看出,用一枚公平的硬币翻转 10 次中的 8 次的概率约为=H04.4%

因为如果我们得到 9 或 10 个尾巴,我们会质疑硬币的公平性,我们必须包括这些可能性,即测试的尾巴。通过添加这些值,我们得到现在的概率略高于5.5%

现在,如果我们只得到 2 个正面,即 8 个正面(另一条尾巴),我们可能同样愿意质疑硬币的公平性。这意味着对于双尾测试,您最终得到的概率为5.4...%+5.4...%10.9%

由于我们在医学界通常对研究失败感兴趣,因此即使我们的意图是做好事并引入有益的治疗,我们也需要包括概率的反面。

我的抛硬币图

稍微偏离主题的思考

这个简单的例子还显示了我们是如何依赖原假设来计算 p 值的。我还想指出二项式曲线和钟形曲线之间的相似之处。当变为 200 次翻转时,您会自然而然地解释为什么恰好获得 100 次翻转的概率开始缺乏相关性。感兴趣的定义区间是向概率密度/质量函数函数及其累积对应函数的自然过渡。

在我的课堂上,我向他们推荐了可汗学院的统计视频,并且我还使用了他对某些概念的一些解释。他们还可以抛硬币,我们研究抛硬币的随机性——我试图展示的是随机性比我们通常认为的受Radiolab 插曲启发的更随机。

编码

我通常有一个图表/幻灯片,我用来创建图表的 R 代码:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

假设您要检验男性平均身高为“5 英尺 7 英寸”的假设。您随机选择男性样本,测量他们的身高并计算样本均值。那么你的假设是:

H0:μ=5 ft 7 inches

HA:μ5 ft 7 inches

在上述情况下,您将进行双尾检验,因为如果样本平均值太低或太高,您将拒绝您的空值。

在这种情况下,p 值表示实现样本均值的概率,该样本均值至少与我们假设空值实际上为真时实际获得的值一样极端。因此,如果观察到样本平均值为“5 英尺 8 英寸”,那么 p 值将表示我们将观察到的高度大于“5 英尺 8 英寸”或高度小于“5 英尺 6 英寸”的概率,前提是 null是真的。

另一方面,如果您的替代方案是这样设计的:

HA:μ>5 ft 7 inches

在上述情况下,您将在右侧进行单尾测试。原因是,只有在样本均值极高的情况下,您才会更愿意拒绝零值以支持替代方案。

p 值的解释与我们现在谈论的实现大于我们实际获得的样本均值的概率的细微差别保持不变。因此,如果观察到样本平均值为“5 英尺 8 英寸”,那么 p 值将表示我们将观察到的高度大于“5 英尺 8 英寸”的概率,前提是空值为真。