具有分类变量的客户细分

数据挖掘 r 聚类 分类数据
2022-02-17 07:49:41

有人建议我在这个小组中写关于我关于建模分类数据库的问题。我有一个客户数据集,这是一个调查结果。我有1595个obs。大约 200 列(200 列,因为大多数情况下问题是多项选择,我们不得不将其分成列)。大多数变量是分类的或二元的。我根本没有连续变量。我的任务是做客户细分、聚类。没有初始假设,尽管我也有问卷,所以可以在逻辑上分离重要问题。

我在建模方面面临几个问题

  1. 我需要验证我使用的变量的选择
  2. 我正在尝试寻找关联、成对关联和趋势,因为我没有初始假设谁可以成为我的细分市场
  3. 聚类模型不适用于分类变量和我尝试过的那些,例如 kmods,忽略关联、相关性并返回给我不清楚的图片。

你能建议如何接近,或者从哪里开始。我是数据分析方面的新手,我需要一些提示才能继续进行分析,我将很感激能得到一些至少是高水平的指导。

提前致谢!

1个回答

您可以使用带有变量选择的混合模型。在这个框架中,变量选择的挑战在于模型选择。因此,可以根据信息标准(如 BIC 或 ICL)进行相关特征的检测和聚类数量的估计。

要执行此分析,您可以使用 R 包 VarSelLCM。因为您考虑分类变量,所以您的数据集必须是 data.frame 并且每一列都必须是一个因素。这是脚本的示例。您的数据集由“my.data”表示。

## Clustering by considering all the variables as discriminative
# Number of clusters is between 1 and 6
res.all <- VarSelCluster(my.data, 1:6, vbleSelec = FALSE)

# partition
res.all@partitions@zMAP

# shiny application
VarSelShiny(res.all)


## Clustering with variable selection
# Number of clusters is between 1 and 6
res.selec <- VarSelCluster(my.data, 1:6, vbleSelec = TRUE)

# partition
res.selec@partitions@zMAP

# shiny application
VarSelShiny(res.selec)