机器算法验证 - 如何找到分类分布的标准差 - 吾爱随笔录

机器算法验证分类数据标准差样本

2022-03-22 12:34:52

如何找到分类分布中的标准偏差，其中元素具有非数字属性（例如颜色）？

例如，我有一袋种颜色的弹珠。的概率偏向某种颜色。从袋子里，我挑选了个弹珠，并得到关于它们颜色的概率分布。 $n$ $\frac{x}n, x>1$ $m$

从这个分布中，通过选择个颜色，我想用置信区间 %（例如 95%）说服其他人，我选择的颜色之一是弹珠偏向的颜色。 $q$ $k$

在这种情况下，在给定和的情况下，可以使用哪些分析技术来求？ $q$ $x,n,k,$ $m$

1个回答

分类变量没有标准差——它没有意义，就像平均值没有意义一样。例如，在您的示例中，“平均颜色”是什么？

但是有一些方法可以估计二项式或多项式比例的误差。目前尚不清楚您想要哪个，因为您的标题似乎要求后者，而您的文本似乎要求前者。即使对于二项式比例，它也比许多人想象的要棘手。

二项式比例的 95% CI 的经典公式是

$\hat{p}=1.96\frac{\hat{p}(1-\hat{p})}{n}$

但这可能不是最好的。参见例如Brown、Cai 和 DasGupta

其它你可能感兴趣的问题