有监督的聚类或分类?

机器算法验证 聚类 分类 无监督学习 统计学习
4个回答

我认为我知道的并不比您多,但是您发布的链接确实提供了答案。我将以http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf为例。基本上他们说:1)聚类取决于距离。2) 成功使用 k-means 需要仔细选择距离。3)给定具有所需分区的项目集形式的训练数据,我们提供了一种结构 SVM 方法,该方法学习距离度量,以便 k-means 产生所需的聚类。在这种情况下,聚类有一个监督阶段,包括训练数据和学习。此阶段的目的是学习距离函数,以便根据训练数据与应用程序域的相似程度,应用具有该距离的 k-means 聚类有望达到最佳效果。所有适用于机器学习和聚类的常见警告仍然适用。

进一步引用文章:监督聚类是借助由项目集和这些项目集的完整分区组成的训练集自动调整聚类算法的任务。. 这似乎是一个合理的定义。

一些定义:

监督聚类应用于分类示例,目的是识别对单个类具有高概率密度的聚类。

无监督聚类是一种使用特定对象函数的学习框架,例如最小化集群内部距离以保持集群紧密的函数。

半监督聚类是通过在聚类过程中使用边信息来增强聚类算法。

Advances in Neural Networks -- ISNN 2010

不使用太多行话,因为我是这个领域的新手,我对监督聚类的理解是这样的:

在监督聚类中,你从自上而下开始使用一些预定义的类,然后使用自下而上的方法,您会发现哪些对象更适合您的类。

例如,您对人群中最喜欢的橙子类型进行了一项研究。
从许多类型的橙子中,您发现一种特定的“种类”橙子是首选。
然而,这种橙子非常脆弱,容易受到感染、气候变化和其他环境因素的影响。
所以你想和其他对这些侮辱非常抗拒的物种交叉。
然后你去实验室,发现一些基因负责一种类型的多汁和甜味,以及另一种类型的抗性能力。
你进行了几次实验,最后得到了一百种不同的橙子亚型。
现在您只对那些完全符合所描述属性的子类型感兴趣。
你不想再在你的人群中进行同样的研究......
你知道你在完美的橙色中寻找的特性。
因此,您运行聚类分析并选择最符合您期望的那些。

我幼稚的理解是,分类是在您有一组指定的类并且您希望将新事物/数据集分类到这些指定类中的一个时执行的。

或者,集群没有任何开始,您使用所有数据(包括新数据)来分成集群。

两者都使用距离度量来决定如何聚类/分类。不同之处在于分类基于先前定义的一组类,而聚类基于整个数据决定集群。

我再一次天真的理解是,监督聚类仍然基于整个数据进行聚类,因此将是聚类而不是分类。

实际上,我确信聚类和分类背后的理论是相互关联的。

我的解释与每个班级的训练样本数量有关。

如果每个类有很多训练样本,那么你可以合理地训练一个分类器并且你有一个分类用例。

如果您只有一小部分类的训练样本,那么分类器的性能会很差,但聚类器可能很有用。您可以使用您拥有的标签优化此聚类器(优化距离、特征等),并希望这种优化对未标记的数据有用。您有一个(半)监督聚类用例。