我想知道使用词汇方法和机器学习方法对基于文本的主题进行分类的优缺点是什么。
我使用了一种简单的方法来根据关键字列表挖掘与特定主题相关的文档。基本上,如果文档包含关键字列表中的一个单词,它将检索它。如果该特定词可以在不同的上下文中使用,它会再次检查帖子中的其他相关词,这些词通常会在类似类型的文档中找到。这是一种简单的方法,但似乎效果很好,并且可以快速轻松地应用于任何主题。主要的批评者似乎是需要创建和维护的关键字列表,这可能既耗时又低效。
最近,机器学习方法已被用于此类文档分类。似乎这种方法能够更好地判断文档中的“上下文”,但需要对大型数据集进行训练,并且如果需要对新数据进行分类,还需要持续训练。
自从机器学习方法出现以来,感觉就像人们摒弃了词汇方法,但这是有道理的吗?看起来词法方法仍然可以得到很好的结果,尤其是在不包含太多上下文的小文档上。
各自的优缺点是什么?