结合两次调查的结果

机器算法验证 民意调查 计数数据 期望值 人口 截断
2022-03-29 22:18:44

有人对一些人进行了调查,并将结果存入数据库(调查 1)。对于任何亚群(仅限男性、仅限年轻人等),每个观察都有额外的信息,这些信息给出了该亚群中人口数量的国家级估计,以及该估计的置信区间。正如预期的那样,相互排斥的子组(男性人数加上女性人数)的估计值总和给出了人口总数的估计值。

我不知道调查是如何进行的,抽样方法等。我只有数据库。来自数据库的所有估计计数都假定为对数正态分布。

其他人进行了另一项调查(调查 2)。更多的人接受了采访。这项调查并不是为了估计任何事情——它只是为了提供有关被采访者的信息。

对于整个人口以及任何子人口,调查 2 的统计数据偏少,因为并非人口中的每个人都接受了采访。通常,基于调查 1 的估计值大于来自调查 2 的计数,但情况并非总是如此。

问题:结合这两项调查的信息的最佳方式是什么?我对一个近似的解决方案很好。

如果我只有调查 1,我对子人群 A 中人数的点估计将是 E(A)。但是,从调查 2 中,我知道 A >那么我应该计算 E(A|A > ) 吗?min(A)min(A)

这样做会导致矛盾。即,相互排斥的亚群中的估计计数总和大于整个总体的估计计数。

谢谢您的帮助。我希望这很清楚。如果不是,请询问,我会尽力解释。:-)

2个回答

为了能够从调查中对总体进行估计,需要了解抽样方法。抽样方法用于创建抽样权重,然后使用抽样权重将调查估计值乘以总体估计值。创建权重的方法有很多种,但都需要基于调查设计。

如果您没有调查设计信息和/或您不知道如何构建权重,则缺少创建总体水平估计值所需的关键信息。特别是对于这两个调查,您需要确信抽样方法是合适的,例如,没有使用配额来停止对特定年龄/性别组合的人进行抽样,没有使用方便样本。如果任一调查在设计中具有这些特定特征,那么任何总体估计(甚至亚总体估计)都会出错。

你的问题有些方面我不明白。例如,您为什么希望将这两项调查结合起来——他们是否提出了不同的问题?而且调查通常不会对整个人口进行抽样——当这种情况发生时,我们称之为人口普查,所以我不明白你对第二次调查的评论。

您能否提供有关调查设计的更多信息,以及数据集中是否有权重以及这些权重是什么样的?

为清楚起见进行更新:我不确定调查 2 是否会在调查 1 中添加除偏见之外的任何内容。在您的问题中,您说调查 2 并不是要估计任何东西——这听起来像是调查 2 有一个方便的样本设计。在处理方便样本时,不可能对总体进行加权,因为使用的抽样方法是有偏差的,而不是随机的。例如,在工作日上午 10 点对超市购物者进行的调查是有偏见的(例如,它将低估全职工人而高估成年女性)。对于有偏差的样本,不可能对数据进行加权以考虑偏差,因为被抽样的概率对于某些组是未知的,对于其他组甚至可能为零,但是您不知道这些概率是多少. 因此,当使用有偏样本时,不可能构建权重来解释抽样。

因为听起来调查 1 具有更好的人口估计设计,所以我建议您使用调查 1 进行估计。

看起来您的调查 2 是一个方便的样本。我不知道它有什么用处。如果没有明确的抽样策略,您就无法以任何有意义的方式推广到总体。充其量,您可能能够利用调查 2 来构建变量如何相互关联的模型,然后尝试使用某种广义回归估计来改进调查 1 的估计,但要做到这一点,您需要确保您的样本没有偏见。

例如,假设您想预测经济中可以征收多少所得税。假设你使用类似美国当前人口调查的东西作为你的调查 1。这是一个设计得非常好的调查,有权重、后分层、花里胡哨,无论你有什么。然后你还有一份调查,你在当地的失业办公室分发,只希望大多数人会写一些东西。这是你的调查 2。你不知道它对你的人口有多好——很可能,您更有可能接触到那些更积极地寻找工作的人,并更频繁地出现在当地办事处。你不会接触到那些放弃找工作的沮丧的工人,或者那些没有资格领取失业救济金但会找工作的人,一些季节性工人,和其他一些人。不过,您对此一无所知:有人刚刚递给您调查 2,并说:“这是我们丰富的数据库,请理解它”。好吧,这是一个有偏见的样本。如果你使用这个数据集拟合个人收入的回归模型,你可能会得到错误的估计:样本剔除了那些在全职、长期工作中收入较高的人,而且教育程度低的人可能比一般人多得多人口。那么调查 2 对您有什么用?正如我所说,我怀疑它在这个目的上有多大价值。使用这个数据集的收入,你可能会得到错误的估计:样本会剔除那些在全职、长期工作中收入较高的人,而且受教育程度低的人可能比一般人口多得多。那么调查 2 对您有什么用?正如我所说,我怀疑它在这个目的上有多大价值。使用这个数据集的收入,你可能会得到错误的估计:样本审查了那些全职、长期工作收入较高的人,并且可能有比一般人口更多的受教育程度低的人。那么调查 2 对您有什么用?正如我所说,我怀疑它在这个目的上有多大价值。

你对调查的内容、抽样单位是什么等提供零背景信息根本没有帮助。我知道你可能受到雇主、客户或任何形式的主管的约束。但如果没有更多细节,我们只能给你一些建议。我可以向您指出有关组合来自多个调查的信息(使用贝叶斯或经验似然方法)的技术文献,但我不确定它在这一点上会有多大帮助。