特征数量与其分数之间的权衡

数据挖掘 聚类 k-均值 无监督学习
2022-03-02 18:26:42

我在 ~200000 个样本上运行 k-mean 聚类。该数据集共有 14 个特征。一个特征是id,其余的都是分类的。

我一直在研究要在聚类中包含哪些特征,而我使用的度量标准是剪影。

我想就如何决定哪种分析更好的建议。特征较少但得分较高(即 0.8)的集群或特征较多但得分较低(即 30)的集群

我的假设是具有更多特征和较低分数的算法更好,因为该算法具有更多描述样本的信息。然而,这些额外的特征可能使算法更难将样本分组。

有什么建议/提示吗?

1个回答

首先,Silhouette score 总是伴随着视觉检查,所以使用它时要小心。这个分数背后的想法是要么拥有正态分布的集群,要么拥有非常紧凑的集群。如果您的数据中的内在集群不是其中之一,那么这个分数在某种程度上是没有意义的。

其次,这个问题也需要重新思考。“聚类中要包含哪些特征?” ……好吧,全部!

数据集的特征不仅仅是每个单独特征的特征的组合。在这些情况下,通常使用降维算法,该算法降低数据的维数并根据整个特征集提取/选择信息特征。请注意,您可能排除的功能与其他一些功能相结合会进行有意义的分区。

最后,我建议看一下K-Modes,它专为对具有名义属性的数据集进行聚类而设计。很可能比 k-mans 更能帮助你。

如果您想了解有关 Graph Clustering 的一些见解(这也与您的问题有关,并且是典型的解决方案之一),您可以在此处发表评论。

祝你好运!