我目前正在尝试使用 Python 中的 NLTK 库分析推文并将它们分类为正面、负面或中性。
我可以看到我正在采用的方法有潜力,但是,我的特征选择过程遇到了麻烦。
事实上,来自 Twitter 的输入并不完全是传统的,因此使用 TF-IDF 删除 Tweets 中不感兴趣的单词的例子并不多。
我的算法实现工作正常,但我现在不知道我应该根据 TF-IDF 分数从我的特征列表中删除多少单词:25%?15%?30%?
此外,这是主要问题,因为 Tweets 与普通英语不同,许多无趣的词,例如“the”和“is”,不会经常出现,因此 TF-IDF 算法会给予高分.
现在,我知道我可以使用停止列表,但如果我可以避免它,我会很高兴(我有很多理由不使用停止列表)。
那么,总而言之,有没有什么办法可以规避无趣单词在 TF-IDF 中获得高分的问题?
编辑:我使用的是朴素贝叶斯分类器。