机器算法验证 - 当样本“是”总体时的统计推断 - 吾爱随笔录

当样本“是”总体时的统计推断

机器算法验证假设检验人口采样

2022-02-14 07:04:34

想象一下，您必须报告每年参加给定考试的候选人人数。例如，由于目标人群的特殊性，在更广泛的人群中推断观察到的成功百分比似乎相当困难。所以你可以认为这些数据代表了整个人口。

测试结果表明男女比例不同真的正确吗？由于您考虑的是整个人口（而不是样本），因此比较观察到的比例和理论比例的测试是否似乎是正确的？

4个回答

对此可能有不同的意见，但我会将人口数据视为样本并假设一个假设的人口，然后以通常的方式进行推断。考虑这一点的一种方法是，有一个底层数据生成过程负责收集的数据，即“人口”分布。

在您的特定情况下，这可能更有意义，因为您将来会有同伙。那么你的人群实际上是即使在未来也会参加考试的人群。通过这种方式，如果您有超过一年的数据，您可以考虑基于时间的变化，或者尝试通过您的错误模型考虑潜在因素。简而言之，您可以开发出具有更大解释力的更丰富的模型。

实际上，如果你真的很肯定你拥有整个人口，甚至没有必要进入统计数据。然后你就知道差别有多大了，没有任何理由再去测试它了。一个经典的错误是使用统计显着性作为“相关”显着性。如果您对总体进行抽样，差异就是如此。

另一方面，如果您重新制定假设，那么候选者可以被视为可能候选者的样本，这将允许进行统计测试。在这种情况下，您通常会在手头的测试中测试男性和女性是否存在差异。

正如 ars 所说，您可以使用多年的测试并将时间添加为随机因素。但是，如果您真的对这些候选人在这个特定测试中的差异感兴趣，那么您就不能使用泛化和测试是毫无意义的。

传统上，统计推断是在概率样本和抽样误差的性质的背景下教授的。该模型是显着性检验的基础。然而，还有其他方法可以对系统性偏离随机性进行建模，事实证明，我们的参数（基于抽样）测试往往是这些替代方案的良好近似。

假设的参数检验依赖于抽样理论来产生可能错误的估计。如果从总体中抽取给定大小的样本，那么了解抽样的系统性会使检验和置信区间变得有意义。对于人口，抽样理论根本不相关，测试在传统意义上没有意义。推理是无用的，没有什么可推理的，只有东西……参数本身。

有些人通过吸引当前人口普查所代表的超级人口来解决这个问题。我发现这些上诉不能令人信服——参数测试是以概率抽样及其特征为前提的。给定时间的总体可能是随时间和地点变化的较大总体的样本。但是，我看不出有任何方式可以合理地辩称这是一个随机（或更一般地是任何形式的概率）样本。没有概率样本，抽样理论和传统的测试逻辑根本不适用。您也可以在方便样本的基础上进行测试。

显然，要在使用总体时接受测试，我们需要在抽样程序中放弃这些测试的基础。做到这一点的一种方法是认识到我们的样本理论测试（例如 t、Z 和 F）与随机化程序之间的密切联系。随机化测试基于手头的样本。如果我收集有关男性和女性收入的数据，概率模型和我们估计误差的基础是实际数据值的重复随机分配。我可以将观察到的组间差异与基于这种随机化的分布进行比较。（顺便说一句，我们一直在实验中这样做，从人口模型中随机抽样很少合适）。

现在，事实证明样本理论测试通常是随机化测试的良好近似。因此，最终，我认为来自人群的测试在这个框架内是有用且有意义的，并且可以帮助区分系统变异和偶然变异——就像基于样本的测试一样。用于到达那里的逻辑略有不同，但对测试的实际意义和使用没有太大影响。当然，直接使用随机化和排列测试可能会更好，因为它们很容易通过我们所有的现代计算能力获得。

假设结果表明候选人因性别而异。例如，完成测试的人的比例如下：女性占 40%，男性占 60%。显而易见，40% 与 60% 不同。现在重要的是决定：1）您感兴趣的人群；2）您的观察与感兴趣的人群有何关系。以下是关于这两个问题的一些细节：

如果您感兴趣的人群只是您观察到的候选人（例如，2016 年申请大学的 100 名候选人），您不需要报告统计显着性检验。这是因为您感兴趣的人群是完全抽样的……您所关心的只是您拥有完整数据的 100 名候选人。也就是说，60% 是句号，与 40% 不同。这个回答的问题是，申请该计划的 100 人中是否存在性别差异？这是一个描述性问题，答案是肯定的。
然而，许多重要的问题是关于在不同环境中会发生什么。也就是说，许多研究人员想要提出关于过去的趋势，以帮助我们预测（然后计划）未来。这方面的一个示例问题是，未来对候选人的测试有多大可能因性别而异？然后，感兴趣的人群比上面的情景#1 更广泛。在这一点上，要问的一个重要问题是：您观察到的数据是否可能代表未来趋势？这是一个推理问题，根据原始发布者提供的信息，答案是：我们不知道。

总之，您报告的统计数据取决于您要回答的问题类型。

考虑基础研究设计可能最有帮助（试试这里： http: //www.socialresearchmethods.net/kb/design.php）。如果您想要更高级的信息，考虑超级种群可能会有所帮助（这里有一篇文章可能会有所帮助：http ://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1 ）。

其它你可能感兴趣的问题

上一篇如何使用 R 中的 ROC 曲线确定最佳截止点及其置信区间？下一篇如何选择聚类方法？如何验证集群解决方案（保证方法选择）？