SurveyMonkey 是否忽略了您获得非随机样本的事实?

机器算法验证 置信区间 样本量 民意调查 样本
2022-03-22 22:56:13

SurveyMonkey 有步骤和图表供您根据人口规模确定给定误差范围或置信区间所需的样本量。

SurveyMonkey 样本量

这张图表是否只是忽略了这样一个事实,即您不会获得随机样本,因为您只会得到那些费心回应调查的人?

当我输入这个问题时,我收到了警告,这个问题看起来很主观,所以也许我没有正确地问它。这不是关于 SurveyMonkey 的问题,而是一个更普遍的问题——你真的可以使用我不知道的一些先进技术从自愿响应数据中计算置信区间吗?

在出口民意调查或全国调查中,显然他们必须处理这个问题。我的教育没有深入涵盖调查抽样技术,但我认为它涉及收集人口统计数据并使用它来了解您所拥有的样本的代表性。

但除此之外,对于一个简单的在线调查,他们是否只是假设愿意回答的人是人口的随机样本?

1个回答

简短的回答是肯定的:Survey Monkey 完全忽略了您获取样本的方式。Survey Monkey 不够聪明,无法假设您收集的内容不是便利样本,但几乎每个 Survey Monkey 调查都是便利样本。这会在您估计的内容中产生巨大的差异,任何数量的纯粹抽样都无法/将消除。一方面,您可以定义从 SRS 获得的总体(以及其中的关联)。另一方面,您可以定义由非随机抽样定义的总体,您可以在其中关联估计(并且功率规则适用于这些值)。作为研究人员,您可以讨论差异并让读者确切地确定非随机样本在逼近真实趋势时的有效性。

作为一点,偏见一词的使用不一致。在概率论中,估计量的偏差由然而,估计量可能有偏差,但一致,因此偏差在大样本中“消失”,例如正态分布 RV 标准偏差的最大似然估计偏差。没有消失偏差的估计器(例如)被称为不一致Biasn=θθ^nθ^pθθ^pθ在概率论中。研究设计专家(如流行病学家)养成了将不一致称为“偏见”的坏习惯。在这种情况下,它是选择偏差或志愿者偏差。这当然是一种偏见,但不一致意味着再多的抽样都无法纠正这个问题。

为了从方便的样本数据中估计总体水平关联,您必须正确识别抽样概率机制并在所有估计中使用逆概率加权。在非常罕见的情况下,这有意义。在实践中识别这种机制几乎是不可能的。可以完成的时间是在一组具有先前信息的个人中,他们被联系填写调查。可以根据先前的信息(例如年龄、性别、SES、... 人口普查是此类分析中涉及逆概率加权的一个很好的例子。