仅具有分类特征的聚类

数据挖掘 Python 聚类 k-均值 分类数据
2022-02-27 16:59:06

我正在尝试使用一堆(24)分类特征进行聚类。我做了一些研究,发现很多人推荐诸如 K-Modes 之类的东西。我尝试在我的数据上运行 K-Modes,最好的运行成本为 27069.0,这似乎相当高。

我的一些特征只有几个值,例如P, O, C, T,所以我认为我可以对它们进行编码。但其他人有许多不同的价值观。关于聚类算法或其他方法的任何提示?我想使用 Python。

编辑:在数据上使用高尔距离然后使用 K-Means 怎么样?

1个回答

首先,您可以对所有功能进行一次性编码。然后,您将面临稀疏的特征空间。要解决此问题,您可以使用自动编码器将所有这些值编码到低维和更密集的空间。然后运行一种聚类方法,例如 k-means。