机器算法验证 - scikit learn中的聚类惯性公式 - 吾爱随笔录

机器算法验证聚类 Python k-均值 scikit-学习公制

2022-03-11 07:37:55

我想使用 pandas 和 scikit learn 在 python 中编写一个 kmeans 聚类。为了选择好的 k，我想对 Tibshirani 和 al 2001 ( pdf ) 的 Gap Statistic 进行编码。

我想知道我是否可以使用scikit 的惯性结果并调整间隙统计公式，而无需重新编码所有距离计算。

有谁知道 scikit 中使用的惯性公式/知道使用高级距离函数重新编码间隙统计的简单方法？

1个回答

我想我找到了 kmeans 聚类的答案：

通过查看 git 源代码，我发现对于 scikit learn，惯性计算为每个点到其最近的质心（即其分配的集群）的平方距离之和。所以 $I = \sum_{i}(d(i,cr))$ 在哪里 $cr$ 是分配集群的质心，并且 $d$ 是平方距离。

现在差距统计的公式涉及

W_{k} = \sum_{r = 1}^{k} \frac{1}{(2 * n_{r})} D_{r}

$W_k = \sum_{r=1}^{k}\frac 1 {(2*n_r) }D_r$ 在哪里

D_{r}

$D_r$ 是簇中所有点之间的平方距离之和

r

$r$ .

通过介绍 $+c$ , $-c$ 在平方距离公式中（ $c$ 是集群的质心 $r$ 坐标），我有一个对应于惯性的术语（如在 scikit 中）+一个术语，如果每个 $c$ 是每个簇的重心（应该是 kmeans）。所以我猜 $W_k$ 实际上是 scikit Inertia。

我还有两个问题：

其它你可能感兴趣的问题