使用分类算法解释聚类结果

数据挖掘 机器学习 分类 聚类
2022-02-15 07:52:24

通常聚类算法只输出一堆类标签,而不提供对算法形成的类的任何类型的解释。在我看来,尝试通过使用聚类算法提供的类标签作为监督分类问题的目标来获得某种解释并非完全不合理。

举个具体的例子,假设您使用 k-means 进行聚类,并使用单个决策树分类器根据其他特征预测聚类。然后,决策树应该能够为您提供一些解释集群的方法。

但是,我找不到任何文献(或博客文章......)提到这是一种解释聚类算法结果的技术,这让我相信这是有问题的。简而言之:

问题:有监督的分类算法可以用来解释无监督聚类算法的结果吗?如果不是,为什么?
2个回答

这个想法没有错,虽然我手头没有文献,但我相当有信心我已经看到了这种事情。我不同意聚类算法通常不提供解释。肯定有很多没有,但我不确定 k-means 是其中之一。您的集群的质心应该为您提供您正在寻找的可解释性。将 k-means 的结果传递给决策树可能只是将质心交换为您的特征的左右边界(尽管如果树忽略决策过程中的特定维度,这实际上可能很有趣)。GMM 和 LDA 等生成模型也提供了很多有用的信息。

关于文献,虽然我认为我没有看到这特别适用于聚类,但肯定有相当多的正在进行的研究来研究为“黑盒模型”增加可解释性的技术。例如,考虑这篇文章:黑盒模型的可解释和可探索近似

我们通过透明近似 (BETA) 提出黑盒解释,这是一种新的模型不可知论框架,用于通过同时优化对原始模型的保真度和解释的可解释性来解释任何黑盒分类器的行为。为此,我们开发了一个新的目标函数,它允许我们学习(具有最优性保证),少量紧凑的决策集,每个决策集都解释了黑盒模型在特征空间的明确、明确定义的区域中的行为。此外,我们的框架还能够在生成这些近似值时接受用户输入,从而允许用户以交互方式探索黑盒模型在用户感兴趣的不同子空间中的行为方式。据我们所知,这是第一种可以通过对明确性、保真度和可解释性进行联合优化来对任何给定黑盒模型的行为进行全局解释的方法,同时还允许用户根据自己的偏好探索模型行为。对真实世界数据集和用户研究的实验评估表明,与最先进的基线相比,我们的方法可以生成高度紧凑、易于理解且准确的各种预测模型的近似值。

寻找“黑盒模型可解释性”,您会发现大量最新研究。

您可以查看可解释的聚类或扩展文章