我正在尝试使用一堆(24)分类特征进行聚类。我做了一些研究,发现很多人推荐诸如 K-Modes 之类的东西。我尝试在我的数据上运行 K-Modes,最好的运行成本为 27069.0,这似乎相当高。
我的一些特征只有几个值,例如P, O, C, T,所以我认为我可以对它们进行编码。但其他人有许多不同的价值观。关于聚类算法或其他方法的任何提示?我想使用 Python。
编辑:在数据上使用高尔距离然后使用 K-Means 怎么样?
我正在尝试使用一堆(24)分类特征进行聚类。我做了一些研究,发现很多人推荐诸如 K-Modes 之类的东西。我尝试在我的数据上运行 K-Modes,最好的运行成本为 27069.0,这似乎相当高。
我的一些特征只有几个值,例如P, O, C, T,所以我认为我可以对它们进行编码。但其他人有许多不同的价值观。关于聚类算法或其他方法的任何提示?我想使用 Python。
编辑:在数据上使用高尔距离然后使用 K-Means 怎么样?
首先,您可以对所有功能进行一次性编码。然后,您将面临稀疏的特征空间。要解决此问题,您可以使用自动编码器将所有这些值编码到低维和更密集的空间。然后运行一种聚类方法,例如 k-means。