当我预期卡方检验的计数 <5 警告时该怎么办?

机器算法验证 卡方检验 假设 列联表
2022-04-05 23:10:38

我对 120 人进行了一项由 12 个问题组成的调查,每个问题包括 4 个名义类别;我想根据人们的社会人口特征(例如他们的教育水平或社会经济地位)来比较人们的答案。我所有的比较标准都由名义类别组成,类别数量在 3 到 6 之间变化。我不能删除或合并比较;类别,换句话说,类别的数量是固定的。

我的问题是,当我通过卡方检验根据人们的教育水平(例如)比较人们答案的频率分布时,我收到警告说(例如)7 个单元格的计数少于 5;最小预期计数是;43. 我几乎所有的问题都收到了这个警告——人口特征比较。

我应该低估这个警告并使用我的测试结果还是应该使用不同的测试?如果我应该使用不同的测试,哪一个?

3个回答

很多时候,你可能不需要做任何事情。“5”规则过于保守,在最近的文献中可以找到一些限制较少(但稍微复杂一些)的指南(其中“最近的”是指“过去半个世纪或更长时间”)。

例如,如果您的所有单元格都预期高于 1 并且大约 80% 高于 5,那么将其视为卡方可能是安全的(因为在您关心的情况下 p 值仍然大致正确具有良好的准确性)。如果预期接近相等,您可以降低。

如果您愿意以两个边距为条件并且可以访问可以生成具有固定边距的随机表的东西(例如可以在 R 中完成),您可以使用模拟来估计 p 值而无需更改任何其他内容。这通常是最容易做到的,并且作为选项内置在 R 中的卡方测试中。

还有许多其他选项(在其他答案中提到了一些),但我通常的偏好是模拟测试统计量的零分布是否不能被卡方充分描述。

首先让我试着澄清一下这个问题:

你有一堆卡方检验要运行,特别是针对几个不同人口统计变量的问题的 12 个答案。所有人口统计变量都是名义上的,具有不同数量的级别(例如,可能是 2(男性与女性),种族为 5(或更少,取决于您如何对种族进行分类)等。

在您的大多数测试中,您都会收到有关预期单元格尺寸较小的警告。

如果是这种情况,很自然的做法是使用精确测试。SAS里面有一个EXACT说法PROC FREQR里面包装fisher.teststats

如果您的问题有有序的答案,可能会有更好的方法。

你有两个选择:

  • 忽略警告
  • 合并/合并垃圾箱