数据分类(使用专用的基于距离的方法)和数据聚类(具有某些定义的方法,例如k-means
)之间有什么区别和相似之处
数据分类是数据聚类的子主题吗?
数据分类(使用专用的基于距离的方法)和数据聚类(具有某些定义的方法,例如k-means
)之间有什么区别和相似之处
数据分类是数据聚类的子主题吗?
分类是您的输入数据由两部分组成的问题:
使用这种数据,您可以训练一个接收数据特征(第一部分)并生成标签(第二部分)的模型。这种训练系统在接收到特定输入时生成一些输出称为“监督学习”。
另一方面,在Clustering中,您的数据集只有数据特征,也就是说,您的数据集没有标签。聚类方法允许您在没有任何标签的情况下将实体分组到类中,通常通过先验定义您想要多少组,然后根据它们的相似性对实体进行分组。这种没有标签,只需要从实体数据特征中学习的训练称为“无监督学习”
[注意:基本上我的回答与@ncasas 相同,只是另一种措辞]
这是分类和聚类之间的根本区别。基于这样的理解:
数据分类和聚类有什么区别(从数据的角度来看)
从严格的数据角度来看,区别在于分类中对注释数据的要求。集群没有这样的要求。
数据分类是数据聚类的子主题吗?
不,因为它们属于具有不同目标的不同 ML 家族。
例子:
第一个任务将文档分成类,但这些类是预定义的:这里是垃圾邮件与非垃圾邮件。该模型专门使用特征作为该目标的指标。如果课程是新闻与娱乐、商业与个人或科幻与浪漫,它将以完全不同的方式使用功能。因此,术语监督学习:模型专注于它被告知(训练)要关注的内容。
主题建模将文档分成几个集群,但即使我们假设恰好有两个集群,这些集群也极不可能对应于垃圾邮件与非垃圾邮件(或新闻与娱乐等)。聚类算法遵循中性相似性方法,不加选择地使用特征。主要结果是集群本身,它们代表数据中的未知模式。例如,在大量文档中应用主题建模可能会导致发现文档的主要类别是什么:新知识是这些组的存在。聚类是无监督的,因为它不遵循预定的目标。
只是把好的答案和评论放在一起,并试图更明确地回答关于分类的问题部分是聚类的一个子主题。
正如@ncasas 从数据的角度所指出的,分类需要标记数据来训练模型(监督学习),而聚类可以利用未标记数据(无监督学习)。
您实际上可以获取一个带标签的数据集并使用聚类算法(您只需丢弃标签中包含的信息)。这确实会像分类算法那样产生分组中的样本分区。但是,结果不能保证相同或相似(即使使用相同数量的分区)。这是因为聚类算法试图构建与自身相似但与其他组的样本不同的样本组,而分类算法试图最小化错误分类的某些功能(建议的分区与标签的分区相比有多大不同)。作为一个简单的例子,你可以想象一个数据集,其中包含来自具有不同面部表情(例如悲伤和快乐)的两个人的几张面部图像;假设你有面部表情的标签,您可以进行分类,这将尝试尽可能好地再现每张图像的悲伤/快乐标签;如果您尝试使用 k=2 聚类对相同的数据(没有标签)进行聚类,您可能会发现这两个聚类对应于两个人的图像(因为同一张脸的图像往往非常相似)。
在不讨论什么构成“子主题”的情况下,我想指出聚类和分类的目标实际上是不同的。