我可以使用无监督学习,然后使用监督学习吗?

数据挖掘 机器学习 分类 聚类 降维
2021-10-15 10:32:05

我有一个关于使用监督学习和无监督学习对文档进行分类的问题。

例如: - 我有一堆关于足球的文件。众所周知,足球在英国、美国和澳大利亚有着不同的含义。因此,很难将这些文档分为三个不同的类别(足球、美式足球和澳式足球)。

我的方法尝试使用基于无监督学习的余弦相似度项。在我们使用集群学习之后,我们能够基于余弦相似度创建多个集群,其中每个集群将包含相似的文档术语。创建集群后,我们可以使用语义特征来识别这些集群,具体取决于 SVM 等监督模型,以进行准确的分类。

我的目标是创建更准确的分类,因为如果我想测试一个新文档,我想知道这个文档是否可以与这些分类相关。

4个回答

您绝对可以尝试先对数据进行聚类,然后尝试查看聚类信息是否有助于您的分类任务。

例如,如果您的数据看起来像这样(一维):

AA A AA A A      BBB B B B BB BB BB      AA AA A A AAA

那么在每个类上运行一个聚类算法可能是合理的,以获得两种不同的 A,并为 A1 和 A2 学习两个单独的分类器,并且只删除最终输出的聚类区别。

其他常用的无监督技术包括 PCA。

至于你的足球例子,问题是无监督算法不知道它应该寻找什么。与其学习区分美式足球和足球,不如决定集中在国际比赛和国家比赛上。或欧洲与美国;乍一看好像是了解美式足球和足球的,但它把美式足球和美式足球放在同一个集群中,把欧洲的美式足球队放到欧洲集群中……因为它没有指导你使用什么结构有兴趣;大陆也是一个有效的结构!

所以通常情况下,我不会盲目地假设无监督技术会产生与您期望的结果相匹配的区分。他们可以产生任何类型的结构,您需要在使用之前仔细检查他们发现的内容。如果您盲目使用它,请确保您在评估上花费了足够的时间(例如,如果聚类提高了您的分类器性能,那么它可能按预期工作......)

听起来好像您想使用无监督学习来创建训练集。我对吗?您使用聚类分析来确定哪些文档来自英国、美国或 Oz - 或者哪些文档分别在谈论足球、足球或澳大利亚足球?然后将这些标记的文档输入某种监督学习算法?

其效果如何完全取决于您区分 UK、US 和 OZ 的能力。我原以为找到已知国籍的文档会相当简单,这样您就可以构建一个用于检测语言变体的监督算法。你甚至不需要一个谈论足球的语料库,因为辩证的差异以其他与主题无关的方式出现。(例如,我显然来自北美,因为我只是写“以独立于主题的方式”而不是“因为辩证差异不取决于主题”)。

但是,如果您正在寻找监督学习,那么“我可以使用非监督学习然后监督学习”的问题的答案是否定的。如果将无监督学习算法的结果提供给有监督学习算法,则最终结果是无监督的——房间里仍然没有大人。结果过程的分类错误将包含来自两个阶段的错误项。如果您使用正确标记的训练数据执行 SVM,您将不会获得相同的性能。这并不意味着您不应该使用您提出的方法......它可能仍然有效......但它不会是一种监督学习算法。

通常使用无监督学习来降低维数,然后使用监督学习来获得准确的预测模型。例如,参见Bhat 和 Zaelit,2012 年,他们首先使用 PCA 将问题的维度从 87 减少到 35。然后,他们使用 L1 回归来获得最佳预测模型。该方法优于建立在整个数据集及其子集上的基于非线性树的模型。

如果您的目标是创建更准确的数据分类到集群中,那么常用的技术是使用监督学习作为准确选择集群数量的方法,请参阅 Pan 等人,2013 年的最新示例。这里的基本方法是选择聚类的数量,以便有监督的多类方法可以学习这些聚类并预测样本外精度最高的聚类。这是说服自己集群既有意义又可预测的一种方法。

另一种方法,如果您的目标是将文档分类为来自美国/美国/澳大利亚或就此问题讨论,足球/美式足球/澳大利亚足球可能是解决三个二元分类问题,这些问题独立预测文档是否谈论足球、美式足球足球或澳大利亚足球。结合这三个分类器的结果(称为二元相关性),您还可以将文档标记为足球或美式足球或上述三个标记的任意组合。

我并不完全理解问题的受监督部分,但请注意:

  • 文档的无监督分类似乎对应于主题建模的 NLP 任务,该任务有很好的方法和工具可用。
  • 在所提出的关于足球的例子中,目标词的多义性需要词义辨别

这两个任务和解决它们的方法非常相似。