如何找到分类分布的标准差

机器算法验证 分类数据 标准差 样本
2022-03-22 12:34:52

如何找到分类分布中的标准偏差,其中元素具有非数字属性(例如颜色)?

例如,我有一袋种颜色的弹珠。的概率偏向某种颜色从袋子里,我挑选了个弹珠,并得到关于它们颜色的概率分布。nxn,x>1m

从这个分布中,通过选择个颜色,我想用置信区间 %(例如 95%)说服其他人,我选择的颜色之一是弹珠偏向的颜色。qk

在这种情况下,在给定的情况下,可以使用哪些分析技术来求qx,n,k,m

1个回答

分类变量没有标准差——它没有意义,就像平均值没有意义一样。例如,在您的示例中,“平均颜色”是什么?

但是有一些方法可以估计二项式或多项式比例的误差。目前尚不清楚您想要哪个,因为您的标题似乎要求后者,而您的文本似乎要求前者。即使对于二项式比例,它也比许多人想象的要棘手。

二项式比例的 95% CI 的经典公式是

p^=1.96p^(1p^)n

但这可能不是最好的。参见例如Brown、Cai 和 DasGupta