我正在尝试评估一家公司对某些数据所做的一些聚类结果,但他们使用了一种我以前从未见过的聚类评估方法。所以我想问问你的意见,很明显,如果有人知道这种方法,如果他/她能向我解释整个想法,那就太好了。
通过使用 k-prototypes 对数据集(250000 行样本和 500000 行中的 5 个特征)进行聚类,因为其中一个特征是分类的。k= 2:10 和 lambda = c(0.3,0.5,0.6,1,2,4,6.693558,10) 的所有组合都已生成,并使用了 3 种方法来找出最佳组合。
他们为数据构建决策树,然后为每个不同的聚类组合计算以下值:(在聚类纯度内加权的反向叶子大小)* 聚类大小/总 obs 并选择具有最大值的组合。(k=10 和 lambda=4)
所以我的问题是:有这样的事情吗?我们可以使用树来确定哪种组合会给我们带来更高的集群纯度?此外,如果我们能做到这一点,我们是否可以只使用一棵简单的树而不评估树的好坏?最后,由于每种方法都给我们不同的答案,我们如何决定并选择使用哪一种方法来选择正确的组合?
如果有人可以帮助我,我将不胜感激。
提前致谢!

