有一个数学定理叫做“大数定律”。想象一下,您想确定硬币正面朝上的概率。抛硬币的“人口”是无限的——比美国的 300,000,000 多人还要多。但是根据大数定律,你掷硬币的次数越多,你的估计就越准确。
理想的民意调查:在理想的民意调查中,民意调查者会从美国人口普查中随机选择名字,他们会找出这些人住在哪里,然后他们会去敲门。如果这个人说他们计划投票,民意调查员会询问他们投票给谁并记录他们的答案。像这样的轮询在数学上可以保证工作,并且可以轻松计算任何给定置信水平的测量误差量。
以下是错误的含义:假设根据您的民意调查,您得到候选人 Awesome McPerfect 获胜的可能性为 52%,错误率为 3%,置信度为 98%。这意味着您可以有 98% 的把握,支持候选人 Awesome McPerfect 的选民的真实比例在 49% 到 55% 之间。
关于错误和置信度的说明对于给定的样本量,您越有信心,您的错误就会越大。想一想 - 你有 100% 的信心支持候选 Awesome 的真实比例在 0% 和 100% 之间(可能的错误最多),并且你有 0% 的信心支持候选 Awesome 的真实比例正好是52.0932840985028390984308% (零错误)。更多的信心意味着更多的错误,更少的信心意味着更少的错误。然而,置信度和误差之间的关系不是线性的!(见:https ://en.wikipedia.org/wiki/Confidence_interval )
现实世界中的民意调查:因为将民意调查员直升飞机到全国各地去敲随机人的门是很昂贵的(尽管我很乐意看到这种情况发生;如果你是亿万富翁并且你看到了这个,请考虑为此提供资金),现实世界中的民意调查更为复杂。让我们看一下更常见的策略之一——召集随机选民并询问他们会投票给谁。这是一个很好的策略,但它确实有一些众所周知的失败:
- 人们经常选择不接电话并回复民意调查(例如我)
- 一些人口统计数据更有可能拥有固定电话(例如年长的选民)
- 一些人口统计数据更有可能回应民意调查(例如年长的选民)
由于不同的人口统计以不同的方式投票,民意测验者必须尽最大努力控制其原始数据(基于谁决定接听电话)和实际选举结果的差异。例如,如果接电话的人中有 10% 是西班牙裔,但上次选举中有 30% 的选民是西班牙裔,那么他们将在民意调查中给予西班牙裔选民三倍的权重。如果接听电话的人中有 50% 的人年龄超过 60 岁,但在上次选举中投票的人中只有 30% 的人年龄超过 60 岁,那么他们将减少对回应的年长选民的重视。它并不完美,但它可以带来一些令人印象深刻的预测壮举(Nate Silver 使用统计数据正确地预测了 2012 年选举中 50 个州中每个州的结果,
提醒智者:民意调查者根据过去的结果做出他们能做出的最佳预测。一般来说,现在的情况与过去大致相同,或者至少变化足够缓慢,以至于最近的过去(他们最关注的)与现在相似。然而,偶尔会有选民的快速变化和事情出错。也许特朗普选民比普通选民接电话的可能性略低,而人口统计的权重并不能说明这一点。或者也许年轻人(绝大多数支持希拉里)更多不太可能比模型预测的那样接电话,而且接电话的人更有可能是共和党人。或者也许两者的反面都是真的——我们不知道。诸如此类的东西是隐藏的变量,通常不会出现在收集的人口统计数据中。
如果我们派民意调查员随机敲门(咳咳,想象中的亿万富翁正在阅读这篇文章),我们就会知道,从那时起,我们就不必根据人口统计数据来衡量事情了,但在那之前,手指交叉。