从 m 人的列表中随机选择 x 人,从 y 人的列表中随机选择 n 个人的概率是多少?

机器算法验证 组合学 随机性 超几何分布
2022-03-01 15:21:03

如果我从 363 人的池中选择 232 人而不进行替换,那么 12 个特定人列表中的 2 人在该选择中的概率是多少?

这是一场超级比赛的随机抽签,其中 363 名参赛者获得了 232 个名额。关于选择是否偏向于特定的 12 人群体存在争议。

我最初计算这个的尝试是有 232 选择 363 可能的选择。从十二个列表中的任何一个人的组合数是 1 选择 12 + 2 选择 12 + ... + 11 选择 12 + 12 选择 12。因此 1 选择 12 + 2 选择 12 .... / 232 选择 363 . 这最终是一个非常低的数字,显然太低了。

我该如何计算?

3个回答

我是这样解释这个问题的:假设据称采样是按如下方式进行的363一张白纸票放在一个罐子里,每张都标有一个人的名字,232充分搅拌罐内内容物后随机取出。预先,12的门票被涂成红色。恰好有两张被选中的票是红色的可能性有多大?最多两张票是红色的概率是多少?

可以得到一个精确的公式,但我们不需要做那么多的理论工作。相反,我们只是跟踪从罐子中取出门票的机会。当时m其中一些已被撤回,让机会i红票已经看到被写p(i,m). 要开始,请注意p(i,0)=0如果i>0(在开始之前你不能有任何红票)和p(0,0)=1(可以肯定你一开始没有红票)。现在,在最近的抽奖中,彩票要么是红色的,要么不是。在第一种情况下,我们以前有机会p(i1,m1)确切地看到i1红票。然后我们碰巧从剩下的地方拉了一个红色的363m+1门票,准确无误i到目前为止红票。因为我们假设所有彩票在每个阶段都有相同的机会,因此我们以这种方式绘制红色的机会是(12i+1)/(363m+1). 在另一种情况下,我们有机会p(i,m1)准确地获得i以前的红票m1抽奖,并且在下一次抽奖时不向样本添加另一张红票的机会是(363m+112+i)/(363m+1). 因此,使用概率的基本公理(也就是说,两个互斥情况的机会相加,条件机会相乘),

p(i,m)=p(i1,m1)(12i+1)+p(i,m1)(363m+112+i)363m+1.

我们递归地重复这个计算,布置一个三角形的值数组p(i,m)为了0i120m232. 经过一点计算,我们得到p(2,232)0.000849884p(0,232)+p(1,232)+p(2,232)0.000934314,回答问题的两个版本。这些都是很小的数字:无论你怎么看,它们都是非常罕见的事件(少于千分之一)。

作为仔细检查,我用计算机进行了 1,000,000 次这个练习。在这些实验的 932 = 0.000932 中,观察到 2 个或更少的红票。这与计算结果非常接近,因为 934.3 的期望值的采样波动约为 30(向上或向下)。以下是在 R 中进行模拟的方式:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

这一次,因为实验是随机的,结果发生了一些变化:在 948 万次试验中观察到两张或更少的红票。这仍然与理论结果一致。)

结论是,232 张罚单中的两张或更少是红色的可能性很小。 如果您确实有 363 人中的 232 人的样本,则此结果强烈表明罐中票模型不能正确描述如何获取样本。 其他解释包括(a)红色票更难从罐子中取出(对他们的“偏见”)以及(b)在观察样本后票被着色(事后数据窥探,确实表示任何偏见)。

一个解释(b)在行动中的例子是一个臭名昭著的谋杀案审判的陪审团。假设它包括 363 人。从那个池子中,法院采访了其中的 232 人。一位雄心勃勃的报社记者仔细查看了池中每个人的履历,发现 363 人中有 12 人是金鱼爱好者,但只有两人接受了采访。法院对金鱼爱好者有偏见吗?可能不是。

@whuber 给出了详尽的解释,我只想指出,有一个标准的统计分布对应于这个场景:超几何分布。因此,您可以直接在 R 中获得任何此类概率:

12 个中恰好有 2 个被选中的概率:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

选择 12 个或更少的概率:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

几率远高于使用简单超几何分布计算得出的概率,因为该组不是随机选择的(“抽签前 12 条鱼被涂成红色”)。

根据问题的描述,我们正在测试抽奖中的欺诈行为。特定的12人组抱怨只有2人被选中,而预期人数为232/363~2/3=8。

我们真正需要计算的是“没有12 人的团体只会选择 2 名成员”的几率是多少。至少一个小组有 2 个或更少的几率(因此会抱怨平局的公平性)要高得多。

当我运行此模拟并检查 30 个 (=360/12) 组中有多少试验没有 2 个或更少的选择时,我得到了大约2.3%的时间。1:42很低,但并非不可能。

您仍然应该检查抽奖程序,因为它可能对特定人群有偏见。他们可能聚集在一起并以较小的概率(例如,第一个或最后一个数字)或任何与抽签过程有关的因变量获得了一个抽签范围。但如果你在程序中没有发现任何缺陷,你可以回到 1:42 的赔率,这对小组来说简直就是运气不好。