机器算法验证 - 结合两次调查的结果 - 吾爱随笔录

结合两次调查的结果

机器算法验证民意调查计数数据期望值人口截断

2022-03-29 22:18:44

有人对一些人进行了调查，并将结果存入数据库（调查 1）。对于任何亚群（仅限男性、仅限年轻人等），每个观察都有额外的信息，这些信息给出了该亚群中人口数量的国家级估计，以及该估计的置信区间。正如预期的那样，相互排斥的子组（男性人数加上女性人数）的估计值总和给出了人口总数的估计值。

我不知道调查是如何进行的，抽样方法等。我只有数据库。来自数据库的所有估计计数都假定为对数正态分布。

其他人进行了另一项调查（调查 2）。更多的人接受了采访。这项调查并不是为了估计任何事情——它只是为了提供有关被采访者的信息。

对于整个人口以及任何子人口，调查 2 的统计数据偏少，因为并非人口中的每个人都接受了采访。通常，基于调查 1 的估计值大于来自调查 2 的计数，但情况并非总是如此。

问题：结合这两项调查的信息的最佳方式是什么？我对一个近似的解决方案很好。

如果我只有调查 1，我对子人群 A 中人数的点估计将是 E(A)。但是，从调查 2 中，我知道 A >。那么我应该计算 E(A|A > ) 吗？ $min(A)$ $min(A)$

这样做会导致矛盾。即，相互排斥的亚群中的估计计数总和大于整个总体的估计计数。

谢谢您的帮助。我希望这很清楚。如果不是，请询问，我会尽力解释。:-)

2个回答

为了能够从调查中对总体进行估计，需要了解抽样方法。抽样方法用于创建抽样权重，然后使用抽样权重将调查估计值乘以总体估计值。创建权重的方法有很多种，但都需要基于调查设计。

如果您没有调查设计信息和/或您不知道如何构建权重，则缺少创建总体水平估计值所需的关键信息。特别是对于这两个调查，您需要确信抽样方法是合适的，例如，没有使用配额来停止对特定年龄/性别组合的人进行抽样，没有使用方便样本。如果任一调查在设计中具有这些特定特征，那么任何总体估计（甚至亚总体估计）都会出错。

你的问题有些方面我不明白。例如，您为什么希望将这两项调查结合起来——他们是否提出了不同的问题？而且调查通常不会对整个人口进行抽样——当这种情况发生时，我们称之为人口普查，所以我不明白你对第二次调查的评论。

您能否提供有关调查设计的更多信息，以及数据集中是否有权重以及这些权重是什么样的？

为清楚起见进行更新：我不确定调查 2 是否会在调查 1 中添加除偏见之外的任何内容。在您的问题中，您说调查 2 并不是要估计任何东西——这听起来像是调查 2 有一个方便的样本设计。在处理方便样本时，不可能对总体进行加权，因为使用的抽样方法是有偏差的，而不是随机的。例如，在工作日上午 10 点对超市购物者进行的调查是有偏见的（例如，它将低估全职工人而高估成年女性）。对于有偏差的样本，不可能对数据进行加权以考虑偏差，因为被抽样的概率对于某些组是未知的，对于其他组甚至可能为零，但是您不知道这些概率是多少. 因此，当使用有偏样本时，不可能构建权重来解释抽样。

因为听起来调查 1 具有更好的人口估计设计，所以我建议您使用调查 1 进行估计。

看起来您的调查 2 是一个方便的样本。我不知道它有什么用处。如果没有明确的抽样策略，您就无法以任何有意义的方式推广到总体。充其量，您可能能够利用调查 2 来构建变量如何相互关联的模型，然后尝试使用某种广义回归估计来改进调查 1 的估计，但要做到这一点，您需要确保您的样本没有偏见。

例如，假设您想预测经济中可以征收多少所得税。假设你使用类似美国当前人口调查的东西作为你的调查 1。这是一个设计得非常好的调查，有权重、后分层、花里胡哨，无论你有什么。然后你还有一份调查，你在当地的失业办公室分发，只希望大多数人会写一些东西。这是你的调查 2。你不知道它对你的人口有多好——很可能，您更有可能接触到那些更积极地寻找工作的人，并更频繁地出现在当地办事处。你不会接触到那些放弃找工作的沮丧的工人，或者那些没有资格领取失业救济金但会找工作的人，一些季节性工人，和其他一些人。不过，您对此一无所知：有人刚刚递给您调查 2，并说：“这是我们丰富的数据库，请理解它”。好吧，这是一个有偏见的样本。如果你使用这个数据集拟合个人收入的回归模型，你可能会得到错误的估计：样本剔除了那些在全职、长期工作中收入较高的人，而且教育程度低的人可能比一般人多得多人口。那么调查 2 对您有什么用？正如我所说，我怀疑它在这个目的上有多大价值。使用这个数据集的收入，你可能会得到错误的估计：样本会剔除那些在全职、长期工作中收入较高的人，而且受教育程度低的人可能比一般人口多得多。那么调查 2 对您有什么用？正如我所说，我怀疑它在这个目的上有多大价值。使用这个数据集的收入，你可能会得到错误的估计：样本审查了那些全职、长期工作收入较高的人，并且可能有比一般人口更多的受教育程度低的人。那么调查 2 对您有什么用？正如我所说，我怀疑它在这个目的上有多大价值。

你对调查的内容、抽样单位是什么等提供零背景信息根本没有帮助。我知道你可能受到雇主、客户或任何形式的主管的约束。但如果没有更多细节，我们只能给你一些建议。我可以向您指出有关组合来自多个调查的信息（使用贝叶斯或经验似然方法）的技术文献，但我不确定它在这一点上会有多大帮助。

其它你可能感兴趣的问题

上一篇如何使用 R 查找多变量数据的分位数？下一篇空间计量经济学——计算残差