当整个人群的数据可用时,计算置信区间和检验假设是否有意义?

机器算法验证 假设检验 置信区间 样本量 大数据 人口
2022-03-09 17:09:58

当整个人群的数据可用时,计算置信区间和检验假设是否有意义?在我看来,答案是否定的,因为我们可以准确地计算出参数的真实值。但是,允许我们使用上述技术的原始人群数据的最大比例是多少?

2个回答

第一个问题没有普遍同意的答案。我自己的观点和你的一样,但其他人认为,可以将人口视为“超级人口”的样本,其中超级人口的确切性质因环境而异:例如,对居住在该地区的所有人的人口普查一座建筑物可以被视为居住在类似建筑物中的所有人的样本;美国人口普查(不可能真正完整)可以被视为有朝一日可能存在(或类似的东西)的超级美国人的样本。我认为这通常是使用 p 值的借口;如果没有 p 值,许多实质性领域的科学家会感到不舒服。(但这是我的观点)。

笼统地回答第二个问题似乎有点奇怪。你什么时候得到一个(比如说)超过一半人口的样本?

更大的问题将是偏见。回到美国人口普查,问题不仅仅是它错过了一些人,而且它错过的人不是总人口中的随机样本。因此,即使人口普查从 95% 的所有人(选择一个数字)那里得到答案,如果剩下的 5% 完全不同,那么结果就会有偏差。

假设 12 名委员会成员中只有 2 名是女性。

比例可以作为对整个人口(委员会)的统计描述。也许应该采取一些措施来纠正这种不平衡,不管它是如何产生的。16

或者它可以被视为对女性被选入委员会的概率的估计——这是选拔过程的一个属性。您可以在它周围放置置信区间,测试它是否与二分之一(或另一个相关的零假设)显着不同,等等。也许需要改变流程以使其公平。

这两种观点,描述性的和推理性的,并不矛盾,而是截然不同。

第二个问题的答案是,计算置信区间并测试关于总体参数的假设是有意义的,即使只有一个人没有被抽样。请注意,CI 和测试必须考虑到相当大比例的人口被抽样:请参阅有限人口校正