如何找到分类分布中的标准偏差,其中元素具有非数字属性(例如颜色)?
例如,我有一袋种颜色的弹珠。的概率偏向某种颜色。从袋子里,我挑选了个弹珠,并得到关于它们颜色的概率分布。
从这个分布中,通过选择个颜色,我想用置信区间 %(例如 95%)说服其他人,我选择的颜色之一是弹珠偏向的颜色。
在这种情况下,在给定和的情况下,可以使用哪些分析技术来求?
如何找到分类分布中的标准偏差,其中元素具有非数字属性(例如颜色)?
例如,我有一袋种颜色的弹珠。的概率偏向某种颜色。从袋子里,我挑选了个弹珠,并得到关于它们颜色的概率分布。
从这个分布中,通过选择个颜色,我想用置信区间 %(例如 95%)说服其他人,我选择的颜色之一是弹珠偏向的颜色。
在这种情况下,在给定和的情况下,可以使用哪些分析技术来求?
分类变量没有标准差——它没有意义,就像平均值没有意义一样。例如,在您的示例中,“平均颜色”是什么?
但是有一些方法可以估计二项式或多项式比例的误差。目前尚不清楚您想要哪个,因为您的标题似乎要求后者,而您的文本似乎要求前者。即使对于二项式比例,它也比许多人想象的要棘手。
二项式比例的 95% CI 的经典公式是
但这可能不是最好的。参见例如Brown、Cai 和 DasGupta