检验与检验比较两组中感冒的几率zzχ2χ2

机器算法验证 假设检验 卡方检验 实验设计 部分 生物统计学
2022-03-27 23:29:35

我刚刚在一本颇受尊敬的(流行的)科学杂志(德国总理,02/2013,第 36 页)中读到了一个有趣的实验(不幸的是,没有来源)。它引起了我的注意,因为直觉上我怀疑结果的重要性,但提供的信息足以重现统计测试。

研究人员想知道在寒冷的天气中变冷是否会增加患感冒的几率。所以他们随机将一组 180 名学生分成两组。一组必须将脚浸入冷水中 20 分钟。另一个人继续穿鞋。我认为这是一种有趣的操作,但另一方面,我不是医生,也许医生认为这很有趣。除了道德问题。

无论如何,5天后,治疗组有13名学生感冒了,但穿着鞋子的组中只有5人。因此,该实验的优势比为 2.87。

鉴于样本量相当小,我开始怀疑这种差异是否很大。所以我进行了两次测试。

首先使用正态近似对比例相等进行简单测试。该测试具有我的猜测是,这是研究人员测试的。这真的很重要。但是,如果我没记错的话,由于正态近似,这个 z 检验仅在大样本中有效。此外,患病率相当小,我想知道这是否不会影响效果置信区间的覆盖率。z=1.988p=0.0468

所以我的第二次尝试是独立性的卡方检验,包括蒙特卡洛模拟和标准皮尔逊卡方检验。在这里,我找到了左右的 p 值。p=.082

现在这一切都不是那么令人放心的结果。我想知道是否有更多选项来测试这些数据以及您对这两个测试的想法是什么(特别是第一个重要测试的假设)

2个回答

我会使用置换检验而不是正态近似或卡方。置换检验是精确且最强大的,以数据为条件。

在这种情况下,我们无法计算组的所有排列,但我们可以生成大量数据的随机排列并得到一个非常精确的值:

group <- c(rep("A",90),rep("B",90))
n_a <- rep(0,100000)
for (i in 1:length(n_a)) {
   temp <- sample(group, size=18)
   n_a[i] <- sum(temp == "A")
}
> mean(n_a >= 13)
[1] 0.03904

这表明 p 值为 0.039。

然而,这是一个很大的问题,但我猜想,感冒的受试者是独立事件的假设被违反了。这些人是学生,大概在同一所学校。想象他们中的两个人共享一个班级、一个宿舍、或其他一些活动、或一个自助餐厅(在一所拥有多个自助餐厅的学校中);事件“#1 感冒了”和“#2 感冒了”不是独立的。我可以想象一个学生会说“让我们报名参加这个实验!” 给他/她的室友或朋友;我可以想象学生是从教授教授的课程中招募的;我可以想象很多违反独立假设的方式。也许这篇我没有读过的论文解决了其中一些问题,但很难看出它如何解决所有这些问题,

@jbowman 给了你一个不错的选择。我想我可能会提供一些关于您关于测试与测试的适当性的明确问题的信息。 zχ2

z -测试:

检验的适当性有两个问题,都与假设的抽样分布是否正确有关。首先,检验使用正态分布而不是分布,这意味着标准差是已知的,没有抽样误差。第二,抽样分布是连续的,但数据是离散的;因为只有某些数据组合是可能的,所以只有某些结果实现的测试统计值是可能的,这可能与理论抽样分布不匹配。(我在这里在其他测试的背景下讨论这个问题:比较和对比、p 值、显着性水平和 I 型错误。) zzt

让我们在不同的背景下考虑第一个问题。如果您有两组具有正态分布的数据,并且您想查看均值是否相等,则需要计算均值和标准差。现在我们知道平均值会受到抽样误差的影响,这就是为什么我们需要进行测试而不是仅仅说这两个样本平均值不相同。然而,我们对标准偏差的估计也必须受到抽样误差的影响,我们必须以某种方式考虑这一事实。当我们这样做时,结果证明测试统计量(一种比例平均差)分布为如果我们改用正态分布(即tz-test),这意味着我们假设我们对标准差的估计没有错误——完美。那么为什么在你的情况下可以使用原因是您的数据是二项式的(即已知“试验”总数中的“成功”数),而不是正常数据。二项分布中,标准差是均值的函数,因此一旦您估计了均值,就无需担心额外的不确定性。因此,正态分布可以用作检验统计量的抽样分布模型。 z

尽管使用正态分布来理解检验统计量的长期行为在技术上是正确的,但出现了另一个问题。问题是正态分布是连续的,但由于您的数据是离散的,因此并非理论分布中的所有值都可以在您的数据集中找到。(再次,我在上面链接的答案中更详细地讨论了这个问题。)幸运的是,您的数据的可能结果与理论正态抽样分布之间的匹配会随着您的越大而变得更好。在您的情况下,无论真正的潜在概率是多少,您在每个组中都可能获得尽可能多的成功或少至没有成功。这意味着可能的组合数是N91×91=1,729,这是很多可能性。使用一个小数据集,您确实可以遇到我在链接答案中讨论的一些问题,但是使用,您不必担心太多。我相信检验对研究人员来说是一个有效的选择。 N=180z

χ2 -测试:

但是测试呢?我认为这也是一个有效的选择,但它不会是我的第一选择。(顺便提一下,上面讨论的第二个问题——离散数据和连续参考分布之间的不匹配——同样适用于 -test 和 -test,所以有这里没有优势。)χ2χ2zχ2-test 是它不假设列总计相对于行总计有什么特别之处;两者都被视为可能是其他可能的值。然而,这并不能准确地反映实验设置。180人,每组90人。在重复的相同研究中,唯一真正不同的是每组中感冒的人数。 -test 错误地将感冒次数和每组中的人数视为可能会发生变化,但 -test 做出了正确的假设。这就是为什么检验在这里有更大的力量。 χ2zz

对于它的价值,@jbowman 建议的置换测试也可以让您的设计的这方面正确,并且不会受到离散连续不匹配问题的影响。因此,它是最好的选择。但我想你可能想了解更多关于 - 和 -tests 在你的情况下的比较。 zχ2