昨天我住的地方举行了大选,早在所有选票开始之前,电视网络就开始宣布获胜者。
他们在所有方面都证明是正确的,我对他们这样做并不感到惊讶。我知道统计数据是绝对可行的。不过,我很好奇。假设:
- 我们已经打开在......之外选票;
- 我们有当前分数为;
我们如何计算领先候选人获胜的确定性?
昨天我住的地方举行了大选,早在所有选票开始之前,电视网络就开始宣布获胜者。
他们在所有方面都证明是正确的,我对他们这样做并不感到惊讶。我知道统计数据是绝对可行的。不过,我很好奇。假设:
我们如何计算领先候选人获胜的确定性?
实践中的主要困难不是统计上的不确定性,即偶然的运气会给一位候选人更多的选票。一个数量级或更多的主要困难是,已打开的选票几乎从来都不是投票的公正样本。如果你忽略这个效应,你会得到一个著名的错误“杜威击败杜鲁门”,这个错误发生在有大量偏差的样本中。
在实践中,支持一位候选人与另一位候选人的选民并没有按地区、白天是否工作或是否会被派往海外平均分配,因此将通过缺席选票进行投票。这些都是不小的差异。
我认为新闻机构现在所做的是将人口分成几组,并使用结果来估计每个组的投票情况(包括投票率)。这些可能基于基于先前选举的模型和先前假设,而不仅仅是这次选举的数据。这些可能没有考虑到诸如棕榈滩蝴蝶选票之类的怪事。
在调查抽样中,需要估计比例的标准误差。它更多地取决于 i 而不是 j。它还要求我打开的选票是随机选择的。如果 p 是候选 A 的真实最终比例,则估计的方差为
数量称为有限总体校正因子。为了估计这个方差,通常用对 p 的估计来代替公式中的 p。通过取平方根得到标准误差。在预测获胜者时,民意测验者可能会使用估计值加上或减去 3 个标准误差。如果区间中不包含 0.5,则如果 0.5 低于下限,则宣布候选人 A 获胜,如果 0.5 高于上限,则宣布他的对手获胜。当然,这只是非常有把握地说,如果 0.5 在区间之外,谁会是赢家。如果您使用三个标准误差(基于二项式的正态近似),则置信水平为 0.99。如果 0.5 在区间内,则没有人被宣布为获胜者,并且民意测验者等待更多数据累积。
在进行预测时,民意调查人员可以从累积的选票中选择一个分层的随机样本,以避免在查看所有计票时可能出现的潜在偏差。查看所有累积选票的问题在于,某些选区完全计算在其他选区之上,它们可能不代表人口。
此处的文章很好地涵盖了该问题并提供了大量参考资料。
有人指出,累积选票可能会提供有偏差的比例估计,因为要么尚未报告的选区往往有利于落后候选人的政党,要么缺席选票可能有利于落后的候选人这些选票最后被计算在内。像哈里斯和盖洛普这样老练的民意测验专家不会落入这样的陷阱。我概述的基于累积投票构建置信区间的简单分析只是使用的一个因素。这些民意测验专家有更多的信息可供他们使用。他们有在选举前不久进行的民意调查,他们有最近几年在选举中进行的所有选区和缺席选票的投票模式。
因此,如果存在明显的偏见可能会使一场势均力敌的选举向相反的方向摇摆,民意调查者将认识到这一点并推迟预测获胜者。
在美国,缺席选票主要来自海外军队和离家上学的大学生。虽然军队可能更保守,可能会投票给共和党,但大学生往往更自由,可能会投票给民主党。所有这些考虑因素都被考虑在内。
现代民意调查的谨慎和复杂性是自那时以来没有发生诸如 1936 年文学文摘民意调查或芝加哥报纸过早让步于 1948 年选举给杜威之类的严重错误的原因。