我有纯自然语言文本的文档。这些文件相当短。例如 20 - 200 字。我想对它们进行分类。
一个典型的表示是一个词袋(BoW)。BoW 特征的缺点是某些特征可能总是存在/具有很高的价值,仅仅是因为它们是语言的重要组成部分。像下面这样的停用词是示例:is, are, with, the, a, an, ...
解决这个问题的一种方法是简单地定义这个列表并删除它们,例如通过查看最常见的词并确定其中哪些词对给定任务没有意义。基本上凭直觉。
另一种方式是 TF-IDF 特征。他们根据单词在整个训练集中出现的频率与在特定文档中出现的频率对单词进行加权。这样,即使是可能不直接携带有意义信息的单词也可能是有价值的。
最后一部分是我的问题:我应该在使用 TF-IDF 功能时删除停用词吗?有没有关于这个主题的出版物?(我很确定我不是第一个想知道这个问题的人)