为什么应该/确实(?)统计抽样适用于政治(例如盖洛普)?

机器算法验证 采样 样本量
2022-03-10 01:09:02

与人口规模相比,那里的民意调查(例如盖洛普)抽样的人数少得离谱(例如,数亿人中可能有一千人)。

现在,对我来说,当您有充分的理由相信样本代表总体(或类似地,其他样本时,对总体进行抽样作为估计总体统计数据的一种手段是有意义的

例如,采样显然对医学研究有意义,因为我们先验地知道人类都有非常相似的基因组,并且这个因素使他们的身体表现相似。
请注意,这不是某种松散耦合——基因组是一个非常该死的强大决定因素

但是,我只是不明白在政治民意调查等事情上使用低样本量的理由是什么。

我可以相信任何给定社区中大约 80-90% 的人都会以类似的方式投票给总统(由于相似的社会经济/教育背景),但这似乎很难证明样本数量荒谬的低是合理的。实际上没有令人信服的理由(至少对我而言)为什么 1000 名随机选民应该像其他 2 亿选民一样行事。

对我来说,你至少需要(比如说)100 倍这个数量。为什么?我可以想到一堆原因,例如:

  1. 仅在加利福尼亚就有约 22,000 个选区人们在经济和教育背景上的成长如此不同,以至于 1000 人的民意调查似乎小得可笑。您如何总结平均少于 1 人的整个区域?

  2. 人们通常无法改变身体对药物的反应,但他们可以通过思考改变他们对政治的看法。在我看来,当你处理政治时,没有类似于医学中的 DNA 的强制因素。充其量我会想象应该有一小部分相关性。

然而不知何故,这样的民意调查似乎……仍然有效?或者至少人们似乎认为他们这样做了?
但他们为什么要这样做?也许我只是从根本上不了解采样有人可以解释吗?
我只是不能认真对待我看到的任何民意调查,但我觉得我或多或少是独自一人……

4个回答

您似乎在想象一个非常简单的采样模型。

最简单的抽样模型称为简单随机抽样您选择人口的一个子集(例如,通过随机拨打电话号码)并询问回答他们如何投票的人。如果 487 人说克林顿,463 人说特朗普,其余的人给你一些古怪的答案,那么民意调查公司会报告说,49% 的选民更喜欢希拉里,而 46% 的选民更喜欢特朗普。然而,民意调查公司做的远不止这些。一个简单的随机样本对每个数据点赋予相同的权重。但是,假设您的样本包含(偶然)600 名男性和 400 名女性,这显然不能代表整个人口。如果男性作为一个群体倾向于一种方式,而女性则倾向于另一种方式,这会使你的结果产生偏差。但是,由于我们有很好的人口统计数据,您可以加权*通过计算女性的反应多一点而男性的反应少一点,这样加权反应就更好地代表了总体。投票机构有更复杂的称重模型,可以使非代表性样本类似于更具代表性的样本。

对抽样响应进行加权的想法是基于相当坚实的统计基础,但在选择哪些因素对权重有贡献时有一定的灵活性。大多数民意调查机构都会根据性别、年龄和种族等人口统计因素重新加权。鉴于此,您可能认为政党身份(民主党、共和党等)也应包括在内,但事实证明,大多数民意调查公司并未在其权重中使用它:政党(自我)身份与选民的选择纠缠不清以一种使它不那么有用的方式。

许多投票机构也在“可能的选民”中报告他们的结果。在这些中,根据他们实际参加民意调查的可能性来选择或加权受访者。该模型无疑也是数据驱动的,但因素的精确选择允许一定的灵活性。例如,在 2008 年或 2016 年之前,包括候选人和选民种族(或性别)之间的互动甚至是不明智的,但我怀疑他们现在有一些预测能力。

理论上,您可以将各种事物作为权重因素包括在内:音乐偏好、眼睛颜色等。但是,人口统计因素是权重因素的流行选择,因为:

  • 根据经验,它们与选民行为密切相关。显然,没有铁定的法律“强迫”白人成为精瘦的共和党人,但在过去的五十年里,他们倾向于这样做。
    • 人口值是众所周知的(例如,来自人口普查或重要记录)

然而,民意调查人员也会看到其他人看到的相同新闻,并且可以在必要时调整权重变量。

还有一些“捏造因素”有时被用来解释民意调查结果。例如,受访者有时不愿意给出“在社会上不受欢迎”的答案。布拉德利效应假设白人选民有时会淡化他们对反对少数族裔的白人候选人的支持,以避免出现种族主义它以汤姆布拉德利(Tom Bradley)的名字命名,他是一位非裔美国州长候选人,尽管在民意调查中轻松领先,但他还是以微弱优势输掉了选举。

最后,你完全正确的是,询问某人意见的行为可以改变它。投票公司试图以中立的方式写出他们的问题。为避免可能的响应顺序出现问题,候选人的姓名可能会以随机顺序列出。有时也会对一个问题的多个版本进行相互测试。这种影响也可以被利用在推送民意调查中达到邪恶的目的,在这种情况下,面试官实际上并不是对收集回复感兴趣,而是对影响他们感兴趣。例如,一项推式民意调查可能会询问“即使有报道称 [候选人 A] 是一名儿童骚扰者,您是否会投票给他?”。


* 你也可以为你的样本设定明确的目标,比如包括 500 名男性和 500 名女性。这被称为分层抽样——人口被分成不同的组,然后对每个组进行随机抽样。实际上,这在民意调查中并不经常这样做,因为您需要将其分成很多详尽的组(例如,德克萨斯州城市的 18-24 岁之间受过大学教育的男性)。

有一个数学定理叫做“大数定律”。想象一下,您想确定硬币正面朝上的概率。抛硬币的“人口”是无限的——比美国的 300,000,000 多人还要多。但是根据大数定律,你掷硬币的次数越多,你的估计就越准确。

理想的民意调查:在理想的民意调查中,民意调查者会从美国人口普查中随机选择名字,他们会找出这些人住在哪里,然后他们会去敲门。如果这个人说他们计划投票,民意调查员会询问他们投票给谁并记录他们的答案。像这样的轮询在数学上可以保证工作,并且可以轻松计算任何给定置信水平的测量误差量

以下是错误的含义:假设根据您的民意调查,您得到候选人 Awesome McPerfect 获胜的可能性为 52%,错误率为 3%,置信度为 98%。这意味着您可以有 98% 的把握,支持候选人 Awesome McPerfect 的选民的真实比例在 49% 到 55% 之间。

关于错误和置信度的说明对于给定的样本量,您越有信心,您的错误就会越大。想一想 - 你有 100% 的信心支持候选 Awesome 的真实比例在 0% 和 100% 之间(可能的错误最多),并且你有 0% 的信心支持候选 Awesome 的真实比例正好是52.0932840985028390984308% (零错误)。更多的信心意味着更多的错误,更少的信心意味着更少的错误。然而,置信度和误差之间的关系不是线性的!(见:https ://en.wikipedia.org/wiki/Confidence_interval )

现实世界中的民意调查:因为将民意调查员直升飞机到全国各地去敲随机人的门是很昂贵的(尽管我很乐意看到这种情况发生;如果你是亿万富翁并且你看到了这个,请考虑为此提供资金),现实世界中的民意调查更为复杂。让我们看一下更常见的策略之一——召集随机选民并询问他们会投票给谁。这是一个很好的策略,但它确实有一些众所周知的失败:

  1. 人们经常选择不接电话并回复民意调查(例如我)
  2. 一些人口统计数据更有可能拥有固定电话(例如年长的选民)
  3. 一些人口统计数据更有可能回应民意调查(例如年长的选民)

由于不同的人口统计以不同的方式投票,民意测验者必须尽最大努力控制其原始数据(基于谁决定接听电话)和实际选举结果的差异。例如,如果接电话的人中有 10% 是西班牙裔,但上次选举中有 30% 的选民是西班牙裔,那么他们将在民意调查中给予西班牙裔选民三倍的权重。如果接听电话的人中有 50% 的人年龄超过 60 岁,但在上次选举中投票的人中只有 30% 的人年龄超过 60 岁,那么他们将减少对回应的年长选民的重视。它并不完美,但它可以带来一些令人印象深刻的预测壮举(Nate Silver 使用统计数据正确地预测了 2012 年选举中 50 个州中每个州的结果,

提醒智者:民意调查者根据过去的结果做出他们能做出的最佳预测。一般来说,现在的情况与过去大致相同,或者至少变化足够缓慢,以至于最近的过去(他们最关注的)与现在相似。然而,偶尔会有选民的快速变化和事情出错。也许特朗普选民比普通选民接电话的可能性略低,而人口统计的权重并不能说明这一点。或者也许年轻人(绝大多数支持希拉里)更多不太可能比模型预测的那样接电话,而且接电话的人更有可能是共和党人。或者也许两者的反面都是真的——我们不知道。诸如此类的东西是隐藏的变量,通常不会出现在收集的人口统计数据中。

如果我们派民意调查员随机敲门(咳咳,想象中的亿万富翁正在阅读这篇文章),我们就会知道,从那时起,我们就不必根据人口统计数据来衡量事情了,但在那之前,手指交叉

首先,这与您的主要观点无关,但值得一提。在医学试验中,您可以让 1000 人测试一种药物,这种药物每年可用于 10000 名患病的人。您可能会认为“正在对 10% 的人口进行测试”,实际上人口不是 10000 人,而是所有未来的患者,因此人口规模是无限的。与无限的潜在吸毒者相比,1000 人并不多,但这类研究是有效的。测试 10%、1% 还是 0.1% 的人口并不重要;重要的是样本的绝对大小,而不是与总体相比有多大。

接下来,您的主要观点是,有很多混杂变量会影响人们的投票。您将加利福尼亚的 22000 个地区视为 22000 个变量,但实际上它们只是少数变量(您提到的收入和教育)。您不需要来自每个地区的代表性样本,您只需要足够的样本来涵盖由于收入、教育等原因造成的差异。

如果你有k混杂变量(年龄、性别、教育等)并且它们都具有相似的效果,然后投票的方差增加了大约k次。如果你采样n人们然后样本平均值的方差减少了一个因子n. 因此,如果每个混杂变量的变化是σ2那么你的样本平均值来自n有的人k混杂变量将是kσ2n.

您可能会想到 10 个左右的混杂变量,但样本量是 1000,所以kn. 因此样本平均值的方差很小。

编辑:

上面的公式假设每个混杂变量都同样重要。如果我们想考虑数百种可能给结果带来差异的因素,那么这个假设是不成立的(例如,推特用户可能支持一个候选人,但我们知道推特的使用不如性别重要)。

我们可以按重要性顺序列出所有混杂变量(例如性别、年龄、收入、...、twitter 使用情况、...)。让我们假设每个变量的重要性只有前一个变量的 90%。现在如果性别增加一个方差等于σ2然后年龄增加一个方差等于0.9σ2和收入增加0.92σ2. 如果我们包括无限数量的混杂变量,那么总可变性为n=0σ20.9n=10σ2.

通过这种对次要变量的考虑,我们最终得到的方差是仅性别可变性的 10 倍。所以随着n样本平均值的变化是10σ2n. 当然0.9是任意选择的,但这传达了一个观点,即这些无限数量的次要变量应该如何加起来很小

也许有人可以就原因发表一个更有启发性的答案,但从最近两次美国大选来看,我不得不准确地得出我在 2016 年大选前所怀疑的结论:

看来我们的投票方法实际上不适用于选举。

关于为什么会出现这种情况尚未达成共识,但我发现的一些假设如下:

  • 由于热情,一些候选人的支持者可能更有可能做出回应。[1, 2]
  • 由于不信任,一些候选人的支持者可能不太可能做出回应。[1, 2, 4]
  • 我们经常轮询并在样本大小/质量上妥协,将噪声误认为是信号。[1, 2]
  • 我们为纠正人口统计偏差所做的权重可能不足。[3]

有关该主题的更多讨论的链接:

  1. (NYMag)我们应该停止关注选举投票吗?

  2. (纽约时报)为什么选举前的民意调查再次出现如此错误?

  3. (538)特朗普的支持者并不“害羞”,但民意调查仍可能缺少其中一些

  4. (Vox)选举结果:为什么民意调查错了