作为我正在进行的模拟的一部分,我有一个概率分布元素,我必须从中采样一组 大小的. 也就是说,每个元素 必须是唯一的 [1]。
从概念上讲,我有以下代码:
while(S.size < m)
getNextSampleFromDistribution();
如果集合中已经存在一个元素,我只是取另一个样本。也就是说,我不断从分布中反复采样,直到集合中填充元素。
在预期中,调用了多少次getNextSampleFromDistribution()
?我该如何计算呢?
有人建议下一个有效样本的到来,可以建模为泊松过程,它们之间的等待时间是指数的,因此可以归类为指数分布,其中. 如果是真的,那是什么在这种情况下?如果不是,那么如何最好地提出一个强有力的理论期望值来解释这一点?
对于我为从超过 1000 个数字的概率分布生成一组 500 个元素而运行的模拟,while 循环运行接近在某些情况下有时!
[1] - 如果我说“设置”,这是多余的,但如果有人忽略了这一点,仍然要清楚:)