机器算法验证 - 置信区间和样本量多项式概率 - 吾爱随笔录

置信区间和样本量多项式概率

机器算法验证置信区间多项分布

2022-03-25 21:37:06

我是统计学的绝对初学者。请原谅我的问题中的任何错误假设或缺失信息。我有一个与多项分布有关的问题（甚至不是 100% 确定这一点），我希望有人可以帮助我。如果我对具有两个以上可能结果（例如蓝色、黑色、绿色、黄色）的分类变量进行抽样（假设）并绘制频率，以便我可以得出概率。例如：黑色 10% 蓝色 25% 绿色 35% 黄色 30% $n=400$

我如何计算这些概率的 95% 置信区间？我如何确定所需的样本量，以便在每个概率的 +-3% 范围内获得准确的结果？如果问题的答案需要任何其他信息，请告诉我。

2个回答

再次非常感谢您的帮助。以下是使用二项式置信区间的“正态逼近法”的（希望是正确的）解决方案：

在此处输入图像描述

我想在评论中添加 Michael M 提到的 Wilson 的方法。
来自维基百科：二项式比例置信区间 - Wilson_score_interval。
您可以使用以下方法获得 95% 的置信区间：

$\frac{n_s + \frac{z^2}{2}}{n+z^2} \pm \frac{z}{n+z^2}\sqrt{\frac{n_s n_f}{n}+\frac{z^2}{4}}$

左项是中心值，右项给出你必须加/减才能得到区间界限的值。

$n_s$ 是该类别中是不在该类别中的样本数，是样本总数，如果您想要 95% 的置信区间 $n_f$ $n$ $z$

对于高计数，它给出了与正常近似相同的结果，但是对于低计数或极值应该更好。

例如，我有一个包含 0 个样本的类别，并且正态近似返回 0 se，因此置信区间为 0-0（因为可以肯定它的概率为 0%，而实际上它的发生率仅为 0，因为少数样本）。

* 该方法实际上适用于二项分布和是该分布的成功和失败。但是，我认为它可以合理地用于多项式，即使它不能解释估计概率必须总和为 1 的事实。正态近似也不能解释这一点。 $n_s$ $n_f$

其它你可能感兴趣的问题

上一篇关于使用神经网络的 Q-Learning 的问题下一篇将多级模型拟合到 R 中的复杂调查数据