我是一个统计新手,所以如果我问一个脑残的问题,请提前道歉。我已经搜索了我的问题的答案,但我发现许多主题要么过于具体,要么很快超出了我目前的理解范围。
我有一些模拟工作,其中包括无法详尽模拟的大型数据集。对于我最小的数据集,详尽的运行显示了来自总共 9180900 次测试的以下结果分布。
结果/频率:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
数字的含义无关紧要。重要的是我拥有的更大的数据集可以扩展到数十亿个测试,并且运行起来非常耗时。我需要限制工作量。
我觉得我应该能够从全套测试中抽取样本以得出样本的分布,并推断(在一定范围内)详尽模拟的结果将呈现大致相同的分布。运行的测试没有固有的偏差,因此统一随机选择输入应该提供有效的样本。
我还不明白我应该如何选择我的样本量。特别是分布呈现出奇怪的尾巴,我担心采样太小会丢失较低的频率。(“4”出现的 140 次只占人口的 0.0015%!)
所以,我的问题是,计算样本量的最佳方法是什么,我可以用它在我的结果中断言某种程度的好?
或者,我问错问题了吗?