如何决定向谁推销?聚类还是决策树?

数据挖掘 分类 聚类 预测建模 决策树 营销
2022-02-10 22:09:30

我正在使用具有足够观察值和约 10 个变量的数据集,

  • 一半的变量是数字的
  • 另一半变量是 2-3 级的分类变量(人口统计)
  • 一个 ID 变量
  • 最后一个具有销售价值的变量,0 表示没有销售和销售账单金额

使用这些信息,我想了解我的客户的哪些细分市场。我将 R 用于代码,但这与这里无关。:)

我对使用哪种统计技术感到困惑。由于我想确定我想获得什么类型的客户并建立我的活动,我最初考虑使用k-means 聚类,即使用无监督学习。

然而,考虑到我知道谁购买了以及他们从销售价值数据中购买了多少,我相信包含这些信息是值得的,因此决定改用预测模型。这里回归只会说明变量的重要性,但我对节点感兴趣(例如,我想要可以支持我的营销活动的规则,例如 45 岁以上,来自洛杉矶地区......等等),所以决策树将是一个更适合。

你怎么认为?聚类还是决策树?或者实际上是别的什么?

3个回答

由于您有标签数据(即销售额),您可以应用监督机器学习。

拟合模型后,可以找到有助于预测目标的特征。

决策树将是一个相对简单的选择,因为它可以轻松处理不同类型的特征并且可以产生决策路径。

我的看法略有不同,并将此问题视为与推荐系统相关的问题。

就像一个人如何根据各种方法(包括监督和非监督方法)为用户推荐电影一样,你也会向用户推荐产品。

因此,虽然您可以开始使用无监督(集群以分割您的用户,特别是如果数据集很大)和监督模型(如 DT)以更好地窥视模型,但最终您应该转向推荐器使用的算法和方法集系统。

这两种算法都有用。聚类分析有利于向群体进行营销,而决策树可以为您提供特定的规则,以确定最好的子细分市场(以及最差的细分市场)。但是,没有机器学习算法会给你一个准确的答案。可以同时使用聚类和决策树。你可以比较他们的输出,看看两者之间是否有共识。如果他们得出相反的结论,总体而言,您需要回到绘图板上并尝试调和差异。