在优惠券收集者的集体抽奖问题中,为什么概率随着样本的增加而降低?

机器算法验证 可能性 优惠券收集问题
2022-04-04 20:13:51

我儿子正在从他们的一张足球专辑中收集帕尼尼贴纸,总共有 472 个贴纸,您可以以 5 个为一组购买它们(这 5 个中没有重复)。你也可以一次性从帕尼尼购买任何 50 个,你显然想在最后做最后的 50 个。

我相信这是一次抽取多张优惠券的优惠券收集者的问题。一篇论文分析了这个问题并证明了它的概率分布。论文是:

“组图的收藏家问题”,Wolfgang Stadje,应用概率的进展,第 22 卷,第 4 期,1990 年 12 月。(不幸的是,未开放访问。)

从论文中,是所有贴纸的集合,是感兴趣的集合(其中),,, 我们从中画出替换的子集,每个包含个不同的贴纸。每个被选中的概率相等。那么是包含在集合的不同元素的数量,我们有以下概率分布:SAASl=|A|s=|S|ω1,ω2,SmωSXk(A)Aω1,,ωk

P(Xk(A)=n)=(ln)j=0n(1)j(nj)[(s+nljm)/(sm)]kn=0,1,,l

就我而言,s=472l=n=422m=5我正在研究随着购买更多贴纸包的分布如何变化。但是,概率不会像k那样单调增加。

使用较小的值可以更清楚地看到(并计算出来),因此对于s=l=3n=2m=1 , km=1的概率为 0、2/3、2/3、14/27、10/27 k=1,,5谁能告诉我我在做什么或在这里解释错误,或者为什么概率随着更多的包而减少,直觉上它应该趋于 1。

作为参考,我发现另一篇文章也处理了这个等式,但他们正在考虑s=l=n,而这里的情况并非如此。

1个回答

虽然比赛迟到了,但我相信我理解您遇到的问题。正如评论所暗示的那样,情况并非如此,因为该等式恰好适用于贴纸的数量,而是由于您的特定示例的性质,其中n<l

如果我们重新阅读沃尔夫冈·斯塔迪 (Wolfgang Stadie) 的论文,其中这个方程是从中得出的,被定义为“至少包含在一个(绘制的包)中的 A 的不同元素的数量”。Xk(A)

因此,当(我们想要的不同贴纸的数量)等于(可用的贴纸总数)时,方程的行为将完全符合您的预期。随着(我们购买的包数量)的增加,完成设置的机会朝向nlk1

但是,在您的情况下这意味着整个集合中有三个不同的贴纸,您正在寻找获得其中 2 个贴纸的概率()。l=3n=2P(Xk(A)=2

因此,您当然希望随着的增加,您的概率趋于随着您购买的每一包,您将增加绘制第三个贴纸的机会,这将完成您的设置并使您所追求的结果无效。0k

您提供的结果表明,在仅购买一包或两包贴纸后,您在套装中仅拥有三个贴纸中的两个的几率是最高的,您的概率为之后,您的概率将趋于希望对您有所帮助,即使晚了两年!2/30