在您观察样本空间中的每个结果之前,试验次数的置信区间?

机器算法验证 自习
2022-04-14 03:05:52

我的朋友收集贴纸。有 200 个独特的贴纸可以粘贴到相册中。随着专辑越来越满,任何新获得的贴纸都不在专辑中的可能性越来越小。

我假设获得每个贴纸的可能性相同,并计算出为完全填满专辑所需收集的预期贴纸数量,即获得 200 个独特贴纸,将是 200 个几何随机数的期望总和变量:

E(n)=x=1200200x1176

  1. 这个对吗?
  2. 我在(在她的情况下,非常不切实际的)独立假设下计算了方差,作为这些随机变量的方差之和。这个对吗?Var(n)=x=12001x200(x/200)264422
  3. 我如何给她一个关于她最有可能收集的贴纸数量的置信区间以使专辑充满?

PS:这不是作业,因为我出于好奇而问,但我没有找到合适的标签,并认为它看起来有点像作业。

1个回答

您想要的更多的是预测区间而不是置信区间(您不是在估计总体参数)。

这是一种模拟方法:

tmpfun <- function() {
    book <- numeric(200)
    while( any(book==0) ) {
        tmp <- sample(200,1)
        book[tmp] <- book[tmp] + 1
    }
    return(sum(book))
}

> out <- replicate( 100000, tmpfun() )
> mean(out)
[1] 1175.593
> var(out)
[1] 64697.3
> quantile(out, c(0.025, 0.975) )
 2.5% 97.5% 
  806  1792