如何报告整个人口的数据?

机器算法验证 统计学意义 人口
2022-03-11 07:36:53

我正在进行一项描述性研究,我在研究中使用了整个人群,而不是样本。我知道我所报告的一切都是人口参数。但是,我如何报告我可能在变量之间找到的关系。例如,如果我要建立一个列联表,我将如何证明我的发现是重要的。我应该使用卡方吗?

3个回答

显着性或假设检验的概念与整个人群无关。假设检验基于您处理(通常)无限总体中的样本的假设,并提出以下问题:我们从满足原假设假设的总体中偶然抽取样本的概率是多少?如果这个概率很低,那么我们拒绝空值。

想象以下场景。您测量两组人(例如,十个人来自纽约,十个人来自克拉科夫),发现两组的平均身高分别为 1.80 米和 1.79 米,标准差为 15 厘米。如果这是来自无限人口的样本,您不会拒绝原假设——差异很小,我们得出结论,如果现实中没有差异(即在我们的无限人口中),获得这些结果的概率是比较高的。

但是,如果这两个群体构成了全部人口,那就没有意义了。如果您测量了居住在克拉科夫和居住在纽约的每个人,并且您发现平均差异为 1 厘米,那么这些人口的平均值不同的,句号。我们不再有概率,只有测量!(——除了可能的测量错误)。

您可以做的是显示效果大小在假设的例子中,例如使用 Cohen 的 d 来显示组之间的差异;也就是说,表达标准偏差的差异。在上面的示例中,差异为 1cm/15cm = 0.0(6)。如何计算您的影响大小将取决于您的数据实际上是什么。

我认为,关键不是要问什么具有统计意义,而是要问作为科学家的你的影响大小是重要的。

就目前而言,一月的回应是正确的。但是,如果说您正在考虑的人口相对较小,例如 100 到 1000,并且您收集了特定时期的数据,那么如果您想推断您的结论在未来也适用于类似的群体,那么您可以发现将其视为样本并应用统计过程更为合适。即使对于城市来说,在一年多的时间里,如果将它们用于预测目的,也可能会有大量移民或移民涌入或流出,或者可能存在流行病或其他可能影响您的结论的事件。

你必须经常问自己,我对什么数量感兴趣?统计不(直接)回答非数字问题。你必须考虑——我对哪一组人感兴趣,他们与手头样本中的价值观有什么关系?

描述性统计数据,例如平均值、相关系数或 Cohen's d,量化了样本的各个方面。推论统计,例如点假设检验,基于子集(面对抽样误差)为整个人口提供这些非常相同的测量值的估计。如果整个人口的测量没有错误,这可以让人们猜测描述性统计数据会是什么。他们从我们可用的一些数据概括到我们没有的一些数据——假设我们拥有的数据代表了我们没有的数据。

推论统计不会超过描述性统计的近似值。正如@january 所指出的,统计意义并不意味着实际意义相反,统计显着性(在点假设检验的情况下)告诉您,您可以将低置信度分配给总体参数的特定单个值(通常为零)。如果您确切知道总体参数的值,我无法想象有任何理由来估计它。

对总体参数的给定值信心不足对您意味着什么,例如当 p<0.05 时“拒绝零”,通常意味着您有信心拒绝总体均值为 0 的假设,取决于有问题的问题。该值可能不为零,但低到没有实际相关性。与知道总体参数为特定(非零)值相比,测试拒绝零点并不携带更直接的信息;相反,它携带的信息较少,因为假设检验对一个值表示怀疑,而描述性统计量对除一个值之外的所有值表示怀疑。(间接地,一个pvalue 还会通知您其他描述性统计数据,例如方差和效应大小)。您可能会将推论统计想象为分配给描述性统计的“置信度标签”(尽管这个比喻已经危险地接近 p(H|D))。

然而,要说如果研究人员感兴趣的整个人口都被测量过,那么描述性统计无疑是优越的,这并不容易。推论统计是否有意义不仅取决于抽样人口的比例,还取决于测量的可靠性。例如,@January 示例中的高度很容易正确测量(暂时忽略人们成长、死亡、发生事故……)。但是,如果你对他们的记忆力、收入或胡须长度感兴趣怎么办?在这种情况下,即使对总体进行了抽样,抽样误差也会表征数据,而您实际上并不精确地知道参数。如果您要重复测量,您将得到完全不同(尽管在统计上非常相似)的结果!在这种情况下,推理可能仍然有用。

但基本上:考虑您对哪个参数感兴趣。p值和统计显着性与其说是参数,不如说是这些参数的“置信度标签”。