我是统计学的绝对初学者。请原谅我的问题中的任何错误假设或缺失信息。我有一个与多项分布有关的问题(甚至不是 100% 确定这一点),我希望有人可以帮助我。如果我对具有两个以上可能结果(例如蓝色、黑色、绿色、黄色)的分类变量进行抽样(假设)并绘制频率,以便我可以得出概率。例如:黑色 10% 蓝色 25% 绿色 35% 黄色 30%
我如何计算这些概率的 95% 置信区间?我如何确定所需的样本量,以便在每个概率的 +-3% 范围内获得准确的结果?如果问题的答案需要任何其他信息,请告诉我。
我是统计学的绝对初学者。请原谅我的问题中的任何错误假设或缺失信息。我有一个与多项分布有关的问题(甚至不是 100% 确定这一点),我希望有人可以帮助我。如果我对具有两个以上可能结果(例如蓝色、黑色、绿色、黄色)的分类变量进行抽样(假设)并绘制频率,以便我可以得出概率。例如:黑色 10% 蓝色 25% 绿色 35% 黄色 30%
我如何计算这些概率的 95% 置信区间?我如何确定所需的样本量,以便在每个概率的 +-3% 范围内获得准确的结果?如果问题的答案需要任何其他信息,请告诉我。
再次非常感谢您的帮助。以下是使用二项式置信区间的“正态逼近法”的(希望是正确的)解决方案:
我想在评论中添加 Michael M 提到的 Wilson 的方法。
来自维基百科:二项式比例置信区间 - Wilson_score_interval。
您可以使用以下方法获得 95% 的置信区间:
左项是中心值,右项给出你必须加/减才能得到区间界限的值。
是该类别中是不在该类别中的样本数,是样本总数,如果您想要 95% 的置信区间
对于高计数,它给出了与正常近似相同的结果,但是对于低计数或极值应该更好。
例如,我有一个包含 0 个样本的类别,并且正态近似返回 0 se,因此置信区间为 0-0(因为可以肯定它的概率为 0%,而实际上它的发生率仅为 0,因为少数样本)。
* 该方法实际上适用于二项分布和是该分布的成功和失败。但是,我认为它可以合理地用于多项式,即使它不能解释估计概率必须总和为 1 的事实。正态近似也不能解释这一点。