置信区间和样本量多项式概率

机器算法验证 置信区间 多项分布
2022-03-25 21:37:06

我是统计学的绝对初学者。请原谅我的问题中的任何错误假设或缺失信息。我有一个与多项分布有关的问题(甚至不是 100% 确定这一点),我希望有人可以帮助我。如果我对具有两个以上可能结果(例如蓝色、黑色、绿色、黄色)的分类变量进行抽样(假设)并绘制频率,以便我可以得出概率。例如:黑色 10% 蓝色 25% 绿色 35% 黄色 30%n=400

我如何计算这些概率的 95% 置信区间?我如何确定所需的样本量,以便在每个概率的 +-3% 范围内获得准确的结果?如果问题的答案需要任何其他信息,请告诉我。

2个回答

再次非常感谢您的帮助。以下是使用二项式置信区间的“正态逼近法”的(希望是正确的)解决方案:

在此处输入图像描述

我想在评论中添加 Michael M 提到的 Wilson 的方法。
来自维基百科:二项式比例置信区间 - Wilson_score_interval
您可以使用以下方法获得 95% 的置信区间:

ns+z22n+z2±zn+z2nsnfn+z24

左项是中心值,右项给出你必须加/减才能得到区间界限的值。

ns是该类别中是不在该类别中的样本数,是样本总数,如果您想要 95% 的置信区间nfnz

对于高计数,它给出了与正常近似相同的结果,但是对于低计数或极值应该更好。

例如,我有一个包含 0 个样本的类别,并且正态近似返回 0 se,因此置信区间为 0-0(因为可以肯定它的概率为 0%,而实际上它的发生率仅为 0,因为少数样本)。

* 该方法实际上适用于二项分布是该分布的成功和失败。但是,我认为它可以合理地用于多项式,即使它不能解释估计概率必须总和为 1 的事实。正态近似也不能解释这一点。nsnf