众包数据的抽样模型?

机器算法验证 采样
2022-02-06 12:10:15

我正在开发一个开放式健康调查应用程序,计划在发展中国家使用。

基本思想是调查访谈是众包的——它们由无组织的志愿者进行,他们使用移动设备提交他们进行的访谈的表格数据,每次调查都附有访谈地点的 GPS 数据。

政府机构编制的传统调查通常使用一些标准抽样模型(通常是概率抽样模型)实施。这需要很多不能总是执行的集中计划。(提到这一点是为了将我的问题放在正确的上下文中)

我们可以说,一名志愿者将在他所在的地区实施便利抽样。他会采访他能接触到的任意数量的人。

基本问题是:如何理解和表征这个测量系统的整体抽样模型?是否有任何方法或组合模型来处理此类情况?

1个回答

简短回答:这是一个方便的示例。你无法为它辩护。

一个更长的答案:您与许多运行内部调查的社交网络处于同一条船上,但不知道谁会回答随机出现在 Facebook 或 Google+ 上的单问题调查……除了与这些巨头不同,您不知道没有关于那些没有回应的人的任何数据。调查和舆论研究界普遍不赞成这种类型的工作,因为完全不清楚这些严重偏差样本的结果如何推广到总人口(如果有的话)。您可以尝试根据已知的人口统计数据重新加权,但最终您会得到一个不同的权重,从仅代表自己的人的 1 到分配给人口中唯一知道如何使用计算机的 70 多位男性的 1,000,000 (无论如何,很可能不代表剩下的 1,000,000 名 70 岁以上的男性)。

附加阅读:“如何利用统计数据撒谎”以关于有偏见的样本的一章开头。如果您可以阅读它并且不会对您的示例设计感到沮丧,那么您可以继续前进。如果您依赖志愿者,您的样本将偏向于更容易获得电子产品的年轻人和城市人口。同样,美国统计协会前任主席弗里茨·舍伦(Fritz Scheuren)编写的“什么是调查”小册子以哈里·杜鲁门的照片开头,当时存在的有偏见的民意调查技术无法预测他的胜利。

有一些关于难以接触到的人群的研究。一个著名的项目是对伊拉克的超额死亡人数进行研究,其中对地理区域进行了抽样调查,在每个区域,当地医生会尝试征求城市街区每个家庭的采访。这种设计受到了越来越多的批评,但无论它多么妥协,它仍然有它的采样组件。请参阅《柳叶刀》上的论文(您可能知道,您在医学界再也没有声望了)http://dx.doi.org/10.1016/S0140-6736 (04)17441-2和http://dx.doi .org/10.1016/S0140-6736(06)69491-9