我使用 k-mean 为我的数据集(150 万个样本和 800 个特征)创建了集群。我知道用于评估集群的内部指标。但是,我正在考虑训练一个监督分类模型(例如随机森林分类器),其中簇数是因变量,所有其他特征都是自变量。使用该模型的准确性是否可以很好地评估 kmean 集群,为什么?
使用随机森林评估集群(例如由 kmean 构建)
数据挖掘
机器学习
分类
聚类
随机森林
k-均值
2022-02-23 05:00:41
2个回答
如果您要在随机森林中完全形成树,那么它们应该能够重新创建您最终聚类的规则,并且准确度将是 100%。现在,如果您要切断随机森林中树木的深度(这是非常标准的,假设您设置 max_depth = 8),那么您的准确度可能会低于 100%。这意味着您无法始终从某些显着特征中获取信息,因为它们不是一个或多个决策树用于分类的 8 个级别的一部分。
那么我的问题是:你为什么要这样做?一旦使用 k-means 获得了每个集群的质心,就可以很快地确定新记录属于哪个集群。我不确定我是否理解您为什么要以这种方式使用随机森林。
如果可以通过随机森林等分类器轻松预测聚类,则它不是质量指标。
特别是对于 k-means,我认为情况正好相反。
你有 800 个特征。有这么多的节日。您通常在 k-means 中遇到缩放问题。在最坏的情况下。整个结果仅取决于单个特征。在这种退化的情况下,单个特征就足够了,分类器将达到 100% 的准确率。所以结论“好的分类器,因此好的聚类”显然是错误的。
其它你可能感兴趣的问题