机器算法验证 - 在您观察样本空间中的每个结果之前，试验次数的置信区间？ - 吾爱随笔录

我的朋友收集贴纸。有 200 个独特的贴纸可以粘贴到相册中。随着专辑越来越满，任何新获得的贴纸都不在专辑中的可能性越来越小。

我假设获得每个贴纸的可能性相同，并计算出为完全填满专辑所需收集的预期贴纸数量，即获得 200 个独特贴纸，将是 200 个几何随机数的期望总和变量：

$E(n) = \sum_{x=1}^{200} \frac{200}{x} \approx 1176$

这个对吗？
我在（在她的情况下，非常不切实际的）独立假设下计算了方差，作为这些随机变量的方差之和。这个对吗？。 $Var(n) = \sum_{x=1}^{200} \frac{1-\frac{x}{200}}{(x/200)^2} \approx 64422$
我如何给她一个关于她最有可能收集的贴纸数量的置信区间以使专辑充满？

PS：这不是作业，因为我出于好奇而问，但我没有找到合适的标签，并认为它看起来有点像作业。

tmpfun <- function() { book <- numeric(200) while( any(book==0) ) { tmp <- sample(200,1) book[tmp] <- book[tmp] + 1 } return(sum(book)) } > out <- replicate( 100000, tmpfun() ) > mean(out) [1] 1175.593 > var(out) [1] 64697.3 > quantile(out, c(0.025, 0.975) ) 2.5% 97.5% 806 1792