使用决策树无监督学习评估聚类

数据挖掘 r 聚类 决策树 k-均值 评估
2022-02-23 19:11:47

我正在尝试评估一家公司对某些数据所做的一些聚类结果,但他们使用了一种我以前从未见过的聚类评估方法。所以我想问问你的意见,很明显,如果有人知道这种方法,如果他/她能向我解释整个想法,那就太好了。

通过使用 k-prototypes 对数据集(250000 行样本和 500000 行中的 5 个特征)进行聚类,因为其中一个特征是分类的。k= 2:10 和 lambda = c(0.3,0.5,0.6,1,2,4,6.693558,10) 的所有组合都已生成,并使用了 3 种方法来找出最佳组合。

  1. Elbow 方法(用最小 WSS 选择簇数和 lambda) 在此处输入图像描述
  2. Silhouette 方法选择具有最大轮廓的簇数和 lambda) 在此处输入图像描述
  3. 决策树

他们为数据构建决策树,然后为每个不同的聚类组合计算以下值:(在聚类纯度内加权的反向叶子大小)* 聚类大小/总 obs 并选择具有最大值的组合。(k=10 和 lambda=4)

所以我的问题是:有这样的事情吗?我们可以使用树来确定哪种组合会给我们带来更高的集群纯度?此外,如果我们能做到这一点,我们是否可以只使用一棵简单的树而不评估树的好坏?最后,由于每种方法都给我们不同的答案,我们如何决定并选择使用哪一种方法来选择正确的组合?

如果有人可以帮助我,我将不胜感激。

提前致谢!

1个回答

这是个好问题。

有这样的事吗?我们可以使用树来确定哪种组合会给我们带来更高的集群纯度?

聚类和简单的决策树拟合在许多情况下一起使用,例如:

  • 首先,就像您提到的聚类质量可以通过使用决策树叶来衡量。我第一次听到这个计算(我知道其他一些与它非常相似的度量)但它是有道理的,因为它仍然测量集群如何彼此不同和密集。

  • 第二个(也是最常用的一个),通过将集群标签分配为类标签来拟合决策树。这里的拟合应该是过拟合(训练误差应该接近于 0)。这让您在有新客户(比如说电子商务中的细分)时不必计算所有距离并找到集群,您只需用树预测新客户并将集群 = 细分标签分配给她/他.

此外,如果我们能做到这一点,我们是否可以只使用一棵简单的树而不评估树的好坏?

你不能。树拟合得很好(几乎过拟合)。由于您想在数据中获取集群分离规则而不是获取模型。

最后,由于每种方法都给我们不同的答案,我们如何决定并选择使用哪一种方法来选择正确的组合?

在那个阶段,您应该思考我们为什么要进行这种细分?使用所有可能的集群模型尝试模拟您的业务方法并比较结果。

希望能帮助到你!