我对统计学相当陌生(一些初学者级别的 Uni 课程),并且想知道如何从未知分布中抽样。具体来说,如果您不了解基础分布,是否有任何方法可以“保证”您获得具有代表性的样本?
举例说明:假设您试图弄清楚财富的全球分布。对于任何给定的个人,您都可以通过某种方式找出他们的确切财富;但你不能“采样”地球上的每一个人。因此,假设您随机抽样 n = 1000 人。
如果您的样本不包括比尔盖茨,您可能会认为不存在亿万富翁。
如果您的样本确实包括比尔盖茨,您可能会认为亿万富翁比实际情况更普遍。
无论哪种情况,您都无法真正说出亿万富翁的普遍程度或稀有程度。您甚至可能根本无法判断是否存在。
对于这种情况,是否存在更好的采样机制?
您将如何先验地判断使用何种采样程序(以及需要多少样本)?
在我看来,您可能必须对很大一部分人口进行“抽样”才能知道,任何接近合理确定性的东西,亿万富翁在地球上的普遍程度或稀有程度,这是由于潜在的分布有点困难跟...共事。