如何计算模拟的样本量以在我的结果中断言某种程度的优点?

机器算法验证 分布 样本量 实验设计 采样
2022-03-25 00:06:39

我是一个统计新手,所以如果我问一个脑残的问题,请提前道歉。我已经搜索了我的问题的答案,但我发现许多主题要么过于具体,要么很快超出了我目前的理解范围。

我有一些模拟工作,其中包括无法详尽模拟的大型数据集。对于我最小的数据集,详尽的运行显示了来自总共 9180900 次测试的以下结果分布。

结果/频率:

  • 0 7183804
  • 1 1887089
  • 2 105296
  • 3 4571
  • 4 140

数字的含义无关紧要。重要的是我拥有的更大的数据集可以扩展到数十亿个测试,并且运行起来非常耗时。我需要限制工作量。

我觉得我应该能够从全套测试中抽取样本以得出样本的分布,并推断(在一定范围内)详尽模拟的结果将呈现大致相同的分布。运行的测试没有固有的偏差,因此统一随机选择输入应该提供有效的样本。

我还不明白我应该如何选择我的样本量。特别是分布呈现出奇怪的尾巴,我担心采样太小会丢失较低的频率。(“4”出现的 140 次只占人口的 0.0015%!)

所以,我的问题是,计算样本量的最佳方法是什么,我可以用它在我的结果中断言某种程度的好?

或者,我问错问题了吗?

2个回答

我认为您的问题的答案是其他几个问题:在您不关心之前,给定的测试结果需要有多罕见?如果它恰好发生在您不再关心它的阈值处,那么您有多确定您实际上会发现至少以这种方式出现的测试。给定这些值,您可以进行功效分析。我不是 100% 确信您是否需要进行多项式(涉及多个结果)功率分析,我猜二项式(无论是否罕见测试)都可以正常工作,例如http:/ /statpages.org/proppowr.htmlAlpha = .05,功率 = 80%,比例为 0 的组,第 1 组的比例为 0.0015。相对样本量,1;总计 - 仅 13,000 次测试以南。预计测试 4s 的数量约为 20。

这将帮助您找到检测这些罕见结果之一所需的测试数量。但是,如果您真正关心的是相对频率,那么问题就更难了。我猜想,如果你简单地将功率分析得到的 N 乘以 20 或 30,你会发现一个合理的猜测。

在实践中,如果您真的不需要提前决定测试的数量,您可以考虑运行测试,直到获得 20 或 30 个结果 4s。当你得到那么多 4 时​​,你应该开始对它们的相对频率 IMO 有一个合理但不是绝对的估计。

最终 - 在运行的测试数量和准确性之间存在权衡。在您真正确定有多少是“足够”之前,您需要知道您希望您的估算有多精确。

我认为功率分析对于您正在尝试做的事情来说过于复杂,并且可能会让您失望。

样本量超过 900 万,我认为您的估计p = Pr(X > 3) = 0.000015非常准确。因此,您可以在简单的二项式(n,p)模型中使用它来估计样本量。

假设您的目标是以 99.9% 的概率观察到至少一个“大”事件。然后Pr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999你想要的样本量是n = ln(0.001)/ln(0.999985) = 460514.

当然,如果您感到幸运并且愿意冒 10% 的机会错过大型活动,那么您只需要 n = 153505 的样本量。将样本量增加三倍可以将您错过大型活动的机会降低一倍100,所以我会选择 460,000。

但是......如果你正在寻找五个,他们的概率就在 1/9180902 的南边,并且要以 99.9% 的概率观察其中至少一个,你需要一个大约 6340 万的样本量!

请注意 DrKNexus 关于更新您对大型事件概率的估计的建议,因为它可能不会在您的所有数据集中都保持不变。