我有一个关于使用监督学习和无监督学习对文档进行分类的问题。
例如: - 我有一堆关于足球的文件。众所周知,足球在英国、美国和澳大利亚有着不同的含义。因此,很难将这些文档分为三个不同的类别(足球、美式足球和澳式足球)。
我的方法尝试使用基于无监督学习的余弦相似度项。在我们使用集群学习之后,我们能够基于余弦相似度创建多个集群,其中每个集群将包含相似的文档术语。创建集群后,我们可以使用语义特征来识别这些集群,具体取决于 SVM 等监督模型,以进行准确的分类。
我的目标是创建更准确的分类,因为如果我想测试一个新文档,我想知道这个文档是否可以与这些分类相关。