当我们拥有所有人口时,我们是否需要假设检验?

机器算法验证 假设检验 样本
2022-01-23 10:46:45

据我了解,假设检验是为了确定样本总体中的发现是否具有统计学意义。但如果我有人口普查数据,我们真的需要假设检验吗?

我在想可能是我应该从人口普查数据中进行多次随机抽样,看看是否有任何随机行为。

4个回答

这一切都取决于你的目标。

如果你想知道有多少人吸烟以及有多少人死于肺癌,你可以只计算他们,但如果你想知道吸烟是否会增加患肺癌的风险,那么你需要进行统计推断。

如果你想知道高中生的教育程度,你可以只看完整的数据,但如果你想知道高中生的家庭背景和心理能力对他们最终的教育程度的影响,你需要统计推断。

如果你想知道工人的收入,你可以只看人口普查数据,但如果你想研究教育程度对收入的影响,你需要统计推断(你可以在 Morgan & Winship, Counterfactuals and Causal Inference找到更多例子:社会研究的方法和原则。)

一般来说,如果您只是 为了尽可能简单地传达最大量的信息而寻找汇总统计数据,您可以只计算、求和、除法、绘图等。

但是如果你想预测会发生什么,或者想了解什么导致了什么,那么你需要统计推断:假设、范式、估计、假设检验、模型验证等。

为了说明我的观点,我假设每个人都被问到他们更喜欢星际迷航还是神秘博士,并且必须选择其中之一(没有中立的选项)。为简单起见,我们还假设您的人口普查数据实际上是完整且准确的(这种情况很少发生)。

关于您的情况有一些重要的警告:

  1. 您的人口统计人口几乎永远不会是您的统计人口。 事实上,我想不出一个例子可以合理地提出统计测试回答的关于作为人口统计人口的统计人口的问题。

    例如,假设您想一劳永逸地解决星际迷航神秘博士哪个更好的问题,并且您通过人口普查时每个活着的人的偏好来更好地定义。你会发现 1234567 人更喜欢星际迷航,123456 9人更喜欢神秘博士。 如果您想按原样接受这个判断,则不需要进行统计测试。

    但是,如果您想了解这种差异是否反映了实际偏好,或者可以通过强迫未决定的人做出随机选择来解释。例如,您现在可以调查人们在两者之间随机选择的空模型,并查看 2 的差值对于您的人口规模而言有多么极端。在这种情况下,您的统计人口不是您的人口统计人口,而是对您当前人口统计人口进行的无限量人口普查的汇总结果。

  2. 如果你有一个合理规模的行政区域人口规模的数据,并且对于它通常回答的问题,你应该关注效果大小,而不是显着性。

    例如,《星际迷航》是否比《神秘博士》略胜一筹并没有实际意义,但你想决定一些实际的事情,比如为国家电视台的节目分配多少时间。如果 1234567 人更喜欢《星际迷航》,1234569 人更喜欢神秘博士,你会决定给两者分配相同的屏幕时间,无论这种微小的差异是否具有统计显着性。

    附带说明一下,一旦您关心效果大小,您可能想知道它的误差范围,这确实可以通过您在问题中提到的一些随机抽样来确定,即bootstrapping

  3. 使用人口统计往往会导致伪复制 您的典型统计检验假设样本不相关。在某些情况下,如果您对相关结构有很好的信息并基于此构建空模型,则可以避免此要求,但这只是个例外。相反,对于较小的样本,您可以通过明确避免对来自同一家庭或类似家庭的两个人进行抽样来避免相关样本。当您的样本是整个人口统计人口时,您无法做到这一点,因此不可避免地存在相关性。如果您仍然将它们视为独立样本,您将提交pseudoreplication

    在我们的例子中,人们并不是独立地得出对星际迷航神秘博士的偏好,而是受到他们的父母、朋友、伴侣等的影响,他们的命运是一致的。如果某个流行氏族的族长更喜欢神秘博士,这将影响许多其他人,从而导致伪复制。或者,如果四名粉丝在前往星际迷航大会的途中因车祸丧生,那就是繁荣,伪复制。

为了给出另一个观点,让我们考虑另一个例子尽可能避免第二个和第三个问题,并且更实用一些:假设您负责一个野生动物保护区,该保护区拥有世界上仅存的粉红色大象。由于粉红色的大象脱颖而出(猜猜它们为何濒临灭绝),您可以轻松地对它们进行普查。你注意到你有 50 头母象和 42 头公象,想知道这是否表明真正的不平衡,或者可以用随机波动来解释。您可以使用零假设进行统计检验,即粉红大象的性别是随机的(概率相等)且不相关(例如,没有同卵双胞胎)。但是在这里,你的统计人口不是你的生态人口,而是多元宇宙中所有的粉红色大象,即,

有趣的。我花了数年时间向客户解释,在有真实人口普查信息的情况下,没有差异,因此统计意义毫无意义。

示例:如果我有来自一家连锁超市的 150 家商店的数据,说一周内卖出了 15000 箱可乐和 16000 箱百事可乐,我们可以肯定地说卖出了更多的百事可乐。[可能有测量误差,但不会有抽样误差。]

但是,正如@Sergio 在他的回答中指出的那样,您可能需要一个推断。一个简单的例子可能是:百事可乐和可口可乐之间的差异是否比通常更大?为此,您将查看销售差异与前几周销售差异的变化,并绘制置信区间或进行统计测试以查看这种差异是否异常。

在假设检验的典型应用中,您无法访问整个感兴趣的总体,但您希望对控制总体中数据分布的参数(均值、方差、相关性...)做出陈述。然后,您总体中抽取一个样本,并评估该样本是否与总体参数是某个预先指定的值的假设(假设检验)兼容,或者您​​从样本中估计参数(参数估计)。

但是,当您真正拥有整个总体时,您很少能直接访问真实的总体参数 - 例如,总体平均值只是总体所有值的平均值。然后,您无需执行任何进一步的假设检验或推理 - 参数正是您所拥有的。

当然,您真正拥有来自整个感兴趣人群的数据的情况非常罕见,并且主要限于教科书示例。