我正在使用具有足够观察值和约 10 个变量的数据集,
- 一半的变量是数字的
- 另一半变量是 2-3 级的分类变量(人口统计)
- 一个 ID 变量
- 最后一个具有销售价值的变量,0 表示没有销售和销售账单金额
使用这些信息,我想了解我的客户的哪些细分市场。我将 R 用于代码,但这与这里无关。:)
我对使用哪种统计技术感到困惑。由于我想确定我想获得什么类型的客户并建立我的活动,我最初考虑使用k-means 聚类,即使用无监督学习。
然而,考虑到我知道谁购买了以及他们从销售价值数据中购买了多少,我相信包含这些信息是值得的,因此决定改用预测模型。这里回归只会说明变量的重要性,但我对节点感兴趣(例如,我想要可以支持我的营销活动的规则,例如 45 岁以上,来自洛杉矶地区......等等),所以决策树将是一个更适合。
你怎么认为?聚类还是决策树?或者实际上是别的什么?