超几何分布和卡方分布的区别

机器算法验证 卡方检验 渔民精确测试 超几何分布
2022-03-30 21:45:23

正如标题所暗示的......我有一个非常基本的问题。

我有以下数据的案例:

Universe: 18840 balls total
red balls in the universe: 6680
Sample: 382 balls total
red balls in the sample: 160

我想估计我的样本中红球的百分比是否与宇宙中红球的百分比显着不同。

您认为使用卡方检验还是超几何分布更正确?

1个回答

请注意,您在这里讨论的是两种不同的统计数据。

让我们先详细设置采样情况,以便我们清楚:

我们有红球和非红球(为简单起见,我将它们都称为“黑色”,但它们可能是非红色的混合 - 这与此设置无关,因为它们都被简单地归类为非红色) .

你的人口(你的“宇宙”)有 18840 个球,6680 个红球和 12160 个黑球。你随机抽取 382 个没有放回的球,得到 160 个红色和 222 个黑色。

也就是说,您的示例数据如下所示:

         Drawn    Not drawn    Total

Red      160        6520        6680
Black    222       11938       12160

Total    382       18458       18840

查看作为随机变量绘制的红球的数量,它具有超几何分布(尽管根据从瓮中提取的白球和黑球而不是从宇宙中提取的红球和黑球来表示)。

[边缘条件给出超几何 - 这也是基于超几何的Fisher 精确检验所使用的情况,也是通常 2x2卡方关联检验/独立检验适用的情况之一。如果你不在两个边距上都设置条件,那么你就没有超几何;但这就是您通常在您描述的特定球入瓮模型中所做的。]

如果Oij是观察到的细胞计数(i,j)在上面2×2表,那么你的统计数据是O11在第一种情况下(假设红色是第一个)和X2=(OijEij)2Eij在第二。这两个统计数据实际上都是离散的,但您可以通过连续分布来近似 - 第一个通过正态近似,第二个通过卡方。

采用随机抽样,样本中红球个数的分布(O11) 是超几何的——也就是说,给定通常的假设,它是完全正确的。

给定宇宙细节和样本大小,通常的“卡方”统计量虽然是离散的,但当样本中的红球数量是超几何时,卡方分布将非常近似。并不准确,但在这种情况下会非常接近。