机器算法验证 - 置信区间与样本量？ - 吾爱随笔录

置信区间与样本量？

机器算法验证置信区间样本量

2022-03-14 21:19:50

我对统计数据和置信区间领域完全陌生。所以这可能非常微不足道，甚至听起来很愚蠢。如果您能帮助我理解或指出一些可以更好地解释这一点的文献/文本/博客，我将不胜感激。

我在 CNN、福克斯新闻、Politico 等各种新闻网站上看到了他们关于 2012 年美国总统竞选的民意调查。每个机构都进行了一些民意调查并报告了一些表格的统计数据：

CNN：奥巴马的受欢迎程度是 X%，误差幅度为 +/- x1%。样本量 600。FOX：奥巴马的受欢迎程度为 Y%，误差幅度为 +/- y1%。样本量 800。XYZ：奥巴马的受欢迎程度为 Z%，误差幅度为 +/- z1%。样本大小 300。

以下是我的疑问：

我如何决定信任哪一个？它应该基于置信区间，还是我应该假设由于 Fox 的样本量更大，它的估计更可靠？置信度和样本量之间是否存在隐含关系，这样指定一个就不需要指定另一个？
我可以确定置信区间的标准差吗？如果是这样，它是始终有效还是仅对某些分布（如高斯）有效？
有没有办法可以“合并”或“组合”上述三个估计并获得我自己的估计以及置信区间？在这种情况下，我应该要求多大的样本量？

我提到 CNN/Fox 只是为了更好地解释我的例子。我无意在这里发起民主党与共和党的辩论。

请帮助我理解我提出的问题。

3个回答

除了彼得的精彩回答之外，这里还有一些针对您的具体问题的答案：

信任谁还取决于谁在进行民意调查以及他们为获得优质民意调查付出了哪些努力。如果样本不具有代表性，则更大的样本量并不是更好，进行大量民意调查，但仅在一个非摇摆状态下不会给出很好的结果。

样本量与置信区间的宽度之间存在关系，但其他因素也会影响宽度，例如百分比与 0、1 或 0.5 的接近程度；使用了哪些偏差调整，如何采集样本（聚类、分层等）。一般规则是置信区间的宽度将与成正比，因此要将区间减半，您需要样本量的 4 倍。 $\frac{1}{\sqrt{n}}$
如果您对如何收集样本以及使用什么公式计算区间有足够的了解，那么您可以求解标准偏差（您还需要知道所使用的置信水平，通常为 0.05）。但是对于分层样本和聚类样本，公式是不同的。大多数民意调查也关注百分比，因此会使用二项分布。
有多种方法可以组合信息，但您通常需要了解样本是如何收集的，或者愿意对区间的构建方式做出某种形式的假设。贝叶斯方法是一种方法。

这是一个很大的话题，但基本上有两个问题：

1) 精度——这取决于样本量。更大的样本提供更精确的估计，具有更低的标准误差和更紧密的置信区间

2) 偏差——在统计学中，它不一定具有它在其他地方所具有的负面含义。在民意调查中，他们试图获得 XXXX 的随机样本（有时可能是选民，有时是登记选民）。但是，他们没有。一些民意调查只使用陆线。不同的人群或多或少可能会回答。不同的群体或多或少可能只是挂断电话。

因此，所有民意调查者都会权衡他们的回答。也就是说，他们试图调整他们的结果以匹配关于选民的已知事实。但他们都做的有点不同。因此，即使使用相同的轮询输入数据，它们也会给出不同的数字。

信任谁？好吧，如果你看看 Nate Silver 在 538 上的工作，他对民意调查员在以前的选举中的准确度有评级。但这并不意味着它们现在将同样准确。

这属于调查抽样领域。原则上，这些方法之所以有效，是因为使用了随机化。以下是基于主观决定的民意调查可能会有所不同的事情。

采样帧。我应该从哪一组选民中抽取样本？
我如何处理未定选民的波动性，他们可能会根据昨天或下周的民意调查改变他对奥巴马与罗姆尼的看法？
彼得谈到了偏见。1936 年的文学文摘民意调查是一场灾难。它选择共和党候选人而不是罗斯福，因为抽样框架是基于电话号码的随机选择。1936 年，只有上层中产阶级和富人拥有电话。该群体由倾向于投票给共和党候选人的共和党人主导。罗斯福以压倒性优势赢得了来自穷人和中产阶级的选票，这些人往往是一群民主党人！这说明了由于抽样框架选择不当造成的偏差。
调查抽样涉及有限的人口。人口规模为 N。假设从该人口中抽取一个简单的随机样本，其规模为 n。为简单起见，假设只有奥巴马和罗姆尼在竞选。奥巴马在这个抽样框架中获得的选票比例是二元变量的平均值（如果受访者选择奥巴马，则为 1，罗姆尼为 0）。该变量的样本均值方差为 [p(1-p)/n][Nn]/N，其中 p 是选择奥巴马的真实人口比例。[Nn]/N 是有限总体校正。在大多数民意调查中，N 远大于 N，正确的可以忽略不计。查看 p(1-p)/n，我们看到方差随 n 下降。因此，如果 n 很大，则给定置信水平的置信区间将变小。

美国人口普查局的民意调查员和其他调查抽样人员和统计学家都可以使用这些统计工具，并且他们使用更复杂、更准确的方法（集群随机抽样和分层随机抽样等几种方法）。

当他们的建模假设有效时，这些方法的效果非常好。出口投票是一个典型的例子。在选举日，您将看到网络准确预测几乎每个州的获胜者，早在接近最终计数之前。那是因为选举前的变化已经消失了。他们从历史上知道人们倾向于如何投票，并且他们可以以一种避免偏见的方式确定选定的选区。网络有时会有所不同。这可能是由于竞争在其他人的心态之前挑选获胜者。在极少数情况下，也可能是因为投票非常接近（例如佛罗里达州的 2000 年总统选举）。

我希望这能让你更清楚地了解正在发生的事情。我们不再看到像 1948 年的“杜威击败杜鲁门”或 1936 年的文学文摘惨败这样的严重错误。但统计数据并不完美，统计学家永远不能说它们是确定的。

其它你可能感兴趣的问题

上一篇分类器的评估：学习曲线与 ROC 曲线下一篇面向数据挖掘者的实验设计课程