如何测试百分比差异?

机器算法验证 二项分布 z检验 百分比
2022-04-13 06:13:29

我有一些调查数据,并且知道“是”回答的数量和百分比。我如何确定“是”区域响应的百分比是否与国家“是”响应百分比在统计上不同。

响应数据

1个回答

使用超几何检验来查看每个地区的比例是否显着大于或显着小于全国比例。

超几何检验将人口视为一个装有 21568 块石头的袋子,其中 10820 块是白色的。然后将每个区域视为来自该袋子的随机样本。例如,东北就像抓了 1919 块石头,得到了 1032 块白色的石头。您可以计算该样本在 R 中的可能性:

> phyper(1032-1, 10820, 21568-10820, 1919, lower.tail = F)
[1] 0.0004970996

说从全国选票中随机抽取 1919 次得到 1032 次赞成的0.0004970996可能性很小。即,这测试了东北部是的比例是否与人口平均值显着不同,并且是(p = 0.0004)。

但是,您也对区域比例是否明显低于全国平均水平感兴趣!要计算,您可以使用以下lower.tail=T选项:

> phyper(1031, 10820, 10748, 1919, lower.tail = T)
[1] 0.9995029

因此,东北部的比例看起来明显高于全国平均水平(p = 0.0004),而不是明显低于(p = 0.9995)。

要回答您的问题,您可以重复测试每个区域的两个尾部的过程。由于这意味着要进行 26 次假设检验,因此如果您使用 p<0.05 之类的阈值,您可能会随机预测其中一两个可能是显着的。出于这个原因,我将通过多重比较校正来完成分析。