识别集群并确定每个个体响应接近的壁橱集群的最佳聚类算法?

数据挖掘 聚类 算法
2022-03-04 10:40:07

我有一个调查,其中每个问题都与不同的“购物者”类型相关(有 5 种类型,所以 5 个问题)。每个问题要么是二元的(真/假),要么是基于比例的。

IE:

1. Do you like to shop at our physical location store ? (True/False)

2. Do our discounts entice you to shop more? a. no b. maybe c. yes

对于每个响应,我将答案选择转换为数值。所以 True 变为 1,答案选项 2C 变为 3,依此类推。

在这一点上,我也不知道要使用什么聚类算法,因此我可以为每种“购物者”类型创建聚类并测量提交的每个单独的调查响应,以确定给定响应的单个集群壁橱,并将响应标记为簇。

IE。提交调查回复的个人是'location conscience shopper type'

接受任何新的分析方法,而不仅仅是聚类

2个回答

由于它们是分类变量,我将使用k-medoids 聚类方法对它们进行聚类。在应用此方法之前,对所有预测变量进行 one-hot 编码。

在此处查看教程: https ://towardsdatascience.com/k-medoids-clustering-on-iris-data-set-1931bf781e05

Sklearn 有一个实现: https ://scikit-learn-extra.readthedocs.io/en/latest/generated/sklearn_extra.cluster.KMedoids.html

你可以看看这些建议 Clustering categorical data

我还没有尝试过在纯分类数据集上进行聚类,但是已经尝试过在文本数据上,最后你最终创建了一个稀疏矩阵,并在使用 Wards 方法的层次聚类中取得了成功

https://towardsdatascience.com/understanding-the-concept-of-hierarchical-clustering-technique-c6e8243758ec

虽然我以前没有使用过这个 - 但尝试使用 k-mediods 来识别 mediods 而不是使用意味着 https://www.geeksforgeeks.org/ml-k-medoids-clustering-with-example/的质心