替换绘制的唯一元素的预期数量

机器算法验证 可能性 二项分布 期望值
2022-03-23 02:26:28

我正在关注这个问题,它几乎完全描述了我的情况(几乎没有修改,以粗体显示):

绘图,替换,k从一个箱子里的球n不同颜色的球,以相同的概率绘制球的每种颜色,“唯一”颜色的预期数量是多少?我们期望得到多少种不同的颜色?

由于我的统计能力不是很强,所以我用数值方法处理了这个问题,经过一些计算和拟合,我得到了这个:

u(n,k)=n(1e(k/n))

在哪里u是唯一颜色的预期数量,n是可用颜色的数量,并且k是样本大小(注意k可能大于n)。它似乎完全符合数值结果。我唯一的问题是我不知道为什么会这样。

我阅读了上述问题的答案,并尝试在我的案例中实施它,但没有成功。我会很高兴得到一个不假设高级统计知识的解释。

2个回答

这个问题的解决方案利用了概率论中的经典技术,即首先定义一组所谓的指标(即二进制值)随机变量,然后使用期望线性

我们首先定义每个n将随机变量分箱

Ij={1if we draw at least one ball from the jth bin0otherwise.
X是表示我们绘制的不同颜色球的数量的随机变量,我们有
X=j=1nIj.
现在使用期望的线性,
E[X]=E[j=1nIj]=j=1nE[Ij].
仍有待计算E[Ij]为了j=1,,n. 请注意,对于任何j
E[Ij]=P(Ij=1)=P(draw at least one ball from bin j)=1P(draw zero balls from bin j)=1(n1n)k.
所以预期的唯一颜色数是
E[X]=n[1(n1n)k]

请注意,您提供的答案是一个近似值,因为

(n1n)k=(11n)k=(11n)nknek/n.

我有一个类似的问题,并找到了这个 5 岁的帖子。关于 tddevlin 的上述答案,我知道这是正确的,但假设您可以将这些 Ij 总结为独立值,我觉得很奇怪。由于您的抽奖箱和垃圾箱数量有限,如果您碰巧幸运并且已经覆盖了许多独特的垃圾箱,那么之后您就不太可能找到新的垃圾箱。抽签是独立的,但我认为下一个 Ij 取决于以前的抽签——从 10 个箱中抽签 5 次并且能够覆盖所有 10 个唯一箱的概率为 0。同样,进行 5 次平局并覆盖 0 个 bin 也是不可能的。但我不确定在 P 的计算中是否考虑了这种依赖性(从 bin j 中至少抽取一个球)。