我是这样解释这个问题的:假设据称采样是按如下方式进行的363一张白纸票放在一个罐子里,每张都标有一个人的名字,232充分搅拌罐内内容物后随机取出。预先,12的门票被涂成红色。恰好有两张被选中的票是红色的可能性有多大?最多两张票是红色的概率是多少?
可以得到一个精确的公式,但我们不需要做那么多的理论工作。相反,我们只是跟踪从罐子中取出门票的机会。当时m其中一些已被撤回,让机会i红票已经看到被写p(i,m). 要开始,请注意p(i,0)=0如果i>0(在开始之前你不能有任何红票)和p(0,0)=1(可以肯定你一开始没有红票)。现在,在最近的抽奖中,彩票要么是红色的,要么不是。在第一种情况下,我们以前有机会p(i−1,m−1)确切地看到i−1红票。然后我们碰巧从剩下的地方拉了一个红色的363−m+1门票,准确无误i到目前为止红票。因为我们假设所有彩票在每个阶段都有相同的机会,因此我们以这种方式绘制红色的机会是(12−i+1)/(363−m+1). 在另一种情况下,我们有机会p(i,m−1)准确地获得i以前的红票m−1抽奖,并且在下一次抽奖时不向样本添加另一张红票的机会是(363−m+1−12+i)/(363−m+1). 因此,使用概率的基本公理(也就是说,两个互斥情况的机会相加,条件机会相乘),
p(i,m)=p(i−1,m−1)(12−i+1)+p(i,m−1)(363−m+1−12+i)363−m+1.
我们递归地重复这个计算,布置一个三角形的值数组p(i,m)为了0≤i≤12和0≤m≤232. 经过一点计算,我们得到p(2,232)≈0.000849884和p(0,232)+p(1,232)+p(2,232)≈0.000934314,回答问题的两个版本。这些都是很小的数字:无论你怎么看,它们都是非常罕见的事件(少于千分之一)。
作为仔细检查,我用计算机进行了 1,000,000 次这个练习。在这些实验的 932 = 0.000932 中,观察到 2 个或更少的红票。这与计算结果非常接近,因为 934.3 的期望值的采样波动约为 30(向上或向下)。以下是在 R 中进行模拟的方式:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
这一次,因为实验是随机的,结果发生了一些变化:在 948 万次试验中观察到两张或更少的红票。这仍然与理论结果一致。)
结论是,232 张罚单中的两张或更少是红色的可能性很小。 如果您确实有 363 人中的 232 人的样本,则此结果强烈表明罐中票模型不能正确描述如何获取样本。 其他解释包括(a)红色票更难从罐子中取出(对他们的“偏见”)以及(b)在观察样本后票被着色(事后数据窥探,确实不表示任何偏见)。
一个解释(b)在行动中的例子是一个臭名昭著的谋杀案审判的陪审团。假设它包括 363 人。从那个池子中,法院采访了其中的 232 人。一位雄心勃勃的报社记者仔细查看了池中每个人的履历,发现 363 人中有 12 人是金鱼爱好者,但只有两人接受了采访。法院对金鱼爱好者有偏见吗?可能不是。