数据挖掘 - 与欧几里德距离实现混淆 - 吾爱随笔录

与欧几里德距离实现混淆

数据挖掘 Python 数据挖掘

2022-03-04 03:32:51

我必须在这个有 29 列和 476 行的数据集上使用 python 从头开始实现 k 均值算法。对于所有这些不同的数据点，我很困惑如何计算质心和数据之间的距离，以确保数据在正确的集群中。我知道我必须使用欧几里得距离，但我不确定如何将它与这个数据集一起使用。我在网上看到的所有示例通常都只处理二维的。我需要有人向我解释我应该采取什么样的方法。这是数据集：

1个回答

首先，如果您想考虑它们，您需要将分类列转换为数字（例如列 $T_m$ ）。
您需要标准化您的功能，因为规模存在差异（例如列 $G$ 对比 $BLK$ )
您可能需要减少维度，因为 k-means 可能会陷入“维度诅咒”。

其余的都很好。欧几里得距离可以推广到任意数量的维度。

\sqrt{(X_{1} - X_{2})^{2} + ({是的}_{1} - {是的}_{2})^{2} + (z_{1} - z_{2})^{2} + . . .}

$\sqrt{(x_{1} - x_{2})^2 + (y_{1} - y_{2})^2 + (z_{1} - z_{2})^2 + ...}$

所以，当你计算你的 k-means 时，你会得到 $k$ 把他们每个人都指向 $d$ 方面（ $d$ 是列数）。然后对于每个数据点，您计算上面的数据点和中心的距离，即

\sqrt{(X_{d 一种 吨 一种} - X_{C e n 吨 e r})^{2} + ({是的}_{d 一种 吨 一种} - {是的}_{C e n 吨 e r})^{2} + (z_{d 一种 吨 一种} - z_{C e n 吨 e r})^{2} + . . .}

$\sqrt{(x_{data} - x_{center})^2 + (y_{data} - y_{center})^2 + (z_{data} - z_{center})^2 + ...}$

Python 为您轻松完成。

其它你可能感兴趣的问题

上一篇当所有特征都在同一尺度上时，为什么要规范化？下一篇每次启动脚本时，带有 sklearn 的 AUC 都会有所不同