评估总体抽样的代表性

机器算法验证 采样 民意调查 数据集 重采样
2022-04-01 19:17:34

我正在寻找一些关于评估我正在分析的特定数据集的代表性的建议。

在这个数据集中,我正在研究被分成五个不同块的总体中两个变量(例如 X 和 Y)之间的关系。主要问题是数据基于来自公众的报告,因此某些区块的数据比其他区块多得多。

目标是评估 X 和 Y 之间的关系在块之间是否存在差异,而且还要确定在我们没有真正随机的总体样本的情况下,此类估计的可靠性如何。

任何建议表示赞赏。

谢谢

1个回答

在商业和政府研究的调查抽样中,正统的方法是将样本的特征与人口的特征进行比较。例如,比较女性的百分比、24 岁以下的百分比等。样本与整个人口的已知数据之间的对应关系越密切,人们对样本的信心就越大。同样,样本统计量与已知总体参数之间的差异越大,不确定性就越大。

通常,在执行这种方法时,研究人员会对数据进行加权以消除任何明显的偏差。

在过去的 15 年中,这种方法已被用来证明大多数商业研究从电话样本转移到在线样本的合理性。

当然,虽然这种方法是正统的,但它在学术文献中没有真正的支持,因为这种方法的理论严谨性可以最好地描述为:“看起来像鸭子,走路像鸭子,我将称之为鸭”。然而,由于没有任何其他替代方案,该方法是正统的方法。