估计集合大小时出错?

机器算法验证 估计
2022-03-23 18:33:56

假设我们有一个集合 A 和一个子集 B。如果我们知道 |A|,那么我们可以计算 |B| 通过找到从 A 中均匀随机选择的元素属于 B 的概率 p。特别是 |A|p=|B|。

假设我们随机均匀地生成 A 的 n 个元素,并使用这些数据来估计 p(B 中的元素数除以 n),从而估计 |B|。

这个估计有多可靠?即我们如何计算误差?

作为一个附带问题,这种技术有名称吗?(这似乎是标记和重新捕获技术的数学版本)

1个回答

你在估计比例。具体而言,假设 A 是选民人数,B 是投票给特定候选人的选民集合。因此,p 将是投票给该候选人的选民百分比。让:

π是投票给候选人的真实百分比

换句话说:

π=|B||A|

然后,您的每个样本都是概率为的伯努利试验,或者等效地,您可以想象您的每个样本都是对潜在选民的民意调查,询问他们是否会投票给候选人。因此,的 MLE 由下式给出:ππ

p=nBn

在哪里

nB是表示他们会投票给候选人的人数,或者是您的样本中属于集合 B 的元素的数量n

您估计的标准误差是:

π(1π)n

以上可以通过使用的 MLE 来近似,即:π

p(1p)n