机器算法验证 - 替换绘制的唯一元素的预期数量 - 吾爱随笔录

替换绘制的唯一元素的预期数量

机器算法验证可能性二项分布期望值

2022-03-23 02:26:28

我正在关注这个问题，它几乎完全描述了我的情况（几乎没有修改，以粗体显示）：

绘图，替换， $k$ 从一个箱子里的球 $n$ 不同颜色的球，以相同的概率绘制球的每种颜色，“唯一”颜色的预期数量是多少？我们期望得到多少种不同的颜色？

由于我的统计能力不是很强，所以我用数值方法处理了这个问题，经过一些计算和拟合，我得到了这个：

u (n, k) = n (1 - e^{(- k / n)})

$u(n,k) = n(1-e^{(-k/n)})$

在哪里 $u$ 是唯一颜色的预期数量， $n$ 是可用颜色的数量，并且 $k$ 是样本大小（注意 $k$ 可能大于 $n$ ）。它似乎完全符合数值结果。我唯一的问题是我不知道为什么会这样。

我阅读了上述问题的答案，并尝试在我的案例中实施它，但没有成功。我会很高兴得到一个不假设高级统计知识的解释。

2个回答

这个问题的解决方案利用了概率论中的经典技术，即首先定义一组所谓的指标（即二进制值）随机变量，然后使用期望线性。

我们首先定义每个 $n$ 将随机变量分箱

\begin{aligned} I_{j} = {\begin{cases} 1 & if we draw at least one ball from the j th bin \\ 0 & otherwise . \end{cases} \end{aligned}

$\begin{align*} I_j = \begin{cases} 1 & \text{if we draw at least one ball from the } j\text{th bin} \\ 0 & \text{otherwise}. \end{cases} \end{align*}$ 让

X

$X$ 是表示我们绘制的不同颜色球的数量的随机变量，我们有

X = \sum_{j = 1}^{n} I_{j} .

$X = \sum_{j=1}^n I_j.$ 现在使用期望的线性，

E [X] = E [\sum_{j = 1}^{n} I_{j}] = \sum_{j = 1}^{n} E [I_{j}] .

$\mathbb{E}[X] = \mathbb{E}\left[\sum_{j=1}^n I_j\right] = \sum_{j=1}^n \mathbb{E}[I_j].$ 仍有待计算

E [I_{j}]

$\mathbb{E}[I_j]$ 为了

j = 1, \dots, n

$j = 1,\dots,n$ . 请注意，对于任何

j

$j$

\begin{aligned} E [I_{j}] & = P (I_{j} = 1) \\ = P (draw at least one ball from bin j) \\ = 1 - P (draw zero balls from bin j) \\ = 1 - {(\frac{n - 1}{n})}^{k} . \end{aligned}

$\begin{align*} \mathbb{E}[I_j] & = P(I_j = 1) \\ & = P(\text{draw at least one ball from bin } j) \\ & = 1 - P(\text{draw zero balls from bin } j) \\ & = 1 - \left(\frac{n-1}{n}\right)^k. \end{align*}$ 所以预期的唯一颜色数是

E [X] = n [1 - {(\frac{n - 1}{n})}^{k}]

$\mathbb{E}[X] = n\left[ 1 - \left(\frac{n-1}{n}\right)^k \right]$

请注意，您提供的答案是一个近似值，因为

{(\frac{n - 1}{n})}^{k} = {(1 - \frac{1}{n})}^{k} = {(1 - \frac{1}{n})}^{n \cdot \frac{k}{n}} \approx e^{- k / n} .

$\left(\frac{n-1}{n}\right)^k = \left(1 - \frac{1}{n}\right)^{k} = \left(1 - \frac{1}{n}\right)^{n\cdot\frac{k}{n}} \approx e^{-k/n}.$

我有一个类似的问题，并找到了这个 5 岁的帖子。关于 tddevlin 的上述答案，我知道这是正确的，但假设您可以将这些 Ij 总结为独立值，我觉得很奇怪。由于您的抽奖箱和垃圾箱数量有限，如果您碰巧幸运并且已经覆盖了许多独特的垃圾箱，那么之后您就不太可能找到新的垃圾箱。抽签是独立的，但我认为下一个 Ij 取决于以前的抽签——从 10 个箱中抽签 5 次并且能够覆盖所有 10 个唯一箱的概率为 0。同样，进行 5 次平局并覆盖 0 个 bin 也是不可能的。但我不确定在 P 的计算中是否考虑了这种依赖性（从 bin j 中至少抽取一个球）。

其它你可能感兴趣的问题

上一篇样本量较小的一个总体比例假设的 z 检验下一篇预测变量在逻辑回归中的相对重要性