估计概率所需的最小样本量磷( X≤ c )P(X≤c)对于一个常数Cc(给定置信水平和置信区间)

机器算法验证 可能性 分布 数理统计
2022-04-03 02:16:24

我有大量人口n从一个未知的连续随机变量X,并且我不知道的基础分布X. 给定一个常数c, 我想确定估计概率所需的最小样本量P(Xc)给定一个置信水平,pc, 和置信区间,Ic (我不确定我们是否需要它们!)。如何找到估计此概率的最小样本量?

我在维基百科中发现了以下与人口数量无关的讨论。我不确定这是否是确定样本量的好方法! 在此处输入图像描述

我还找到了一些方法来确定要通过非参数测试分析的数据的样本量。您不必对值的分布做出任何假设。这就是为什么它被称为非参数。现在我很困惑这些非参数方法是否可以用来解决我的问题,或者我在维基百科中找到的方法是解决我的问题的正确方法,或者存在更好的解决方案。

谢谢你的帮助。

1个回答

这里可以使用Dvoretzky-Kiefer-Wolfowitz 不等式。所需样本量b(我在用着b将其与n因为您已经将人口规模设置为n在问题陈述中)由下式确定

b(12ϵ2)ln(2α),
在哪里ϵ是你希望你的经验 cdf 有多接近和1α是置信水平。

所以,例如,如果你想估计F(c)ϵ=0.01在 95% 的置信度下,该公式给出的样本量为

b18444.4,
或者b=18445.

这将涵盖所有c,所以你可以做得更好。也许其中一位评论者会填写有关单个值的更有效解决方案的详细信息c.