机器算法验证 - 如何计算纯度？ - 吾爱随笔录

如何计算纯度？

机器算法验证聚类

2022-02-07 02:15:29

在聚类分析中，我们如何计算纯度？方程是什么？

我不是在寻找代码来为我做这件事。

在此处输入图像描述

设为簇 k，为 j 类。 $\omega_k$ $c_j$

那么纯度实际上是准确的吗？它看起来像是在对样本大小上每个集群的真正分类类别的数量求和。

方程源

问题是输出和输入之间的关系是什么？

如果有真阳性（TP）、真阴性（TN）、假阳性（FP）、假阴性（FN）。是吗？ $Purity = \frac{TP_K}{(TP+TN+FP+FN)}$

1个回答

在聚类分析的背景下，纯度是聚类质量的外部评价标准。它是正确分类的对象（数据点）总数的百分比，在单位范围 [0..1] 内。

P u r i t y = \frac{1}{N} \sum_{i = 1}^{k} m a x_{j} | c_{i} \cap t_{j} |

$Purity = \frac 1 N \sum_{i=1}^k max_j | c_i \cap t_j |$

其中 = 对象数（数据点）， = 聚类数，是中的一个聚类，是聚类 $N$ $k$ $c_i$ $C$ $t_j$ $c_i$

当我们说“正确”时，这意味着每个集群已将一组对象识别为与基本事实所指示的同一类。我们使用这些对象的真实分类作为分配正确性的度量，但是要这样做，我们必须知道哪个集群映射到哪个真实分类。如果它是 100% 准确的，那么每个将精确映射到 1 个，但实际上我们的包含一些点，这些点的基本事实将它们分类为其他几个分类。来获得最高的聚类质量 $c_i$ $t_i$ $c_i$ $t_i$ $c_i$ $t_i$ $c_i$ $c_i$ $t_i$ 映射具有最多正确分类，即。这就是方程中的来源。 $c_i \cap t_i$ $max$

计算纯度首先创建你的混淆矩阵这可以通过遍历每个集群并计算有多少对象被分类为每个类来完成。 $c_i$ $t_i$

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

然后对于每个集群，从其行中选择最大值，将它们相加，最后除以数据点的总数。 $c_i$

Purity = (53 + 60 + 16) / 140 = 0.92142

其它你可能感兴趣的问题

上一篇贝叶斯方法在什么时候优于频率学方法？下一篇为什么 James-Stein 估计器被称为“收缩”估计器？