机器算法验证 - 推文的 TF-IDF 截止百分比 - 吾爱随笔录

我目前正在尝试使用 Python 中的 NLTK 库分析推文并将它们分类为正面、负面或中性。

我可以看到我正在采用的方法有潜力，但是，我的特征选择过程遇到了麻烦。

事实上，来自 Twitter 的输入并不完全是传统的，因此使用 TF-IDF 删除 Tweets 中不感兴趣的单词的例子并不多。

我的算法实现工作正常，但我现在不知道我应该根据 TF-IDF 分数从我的特征列表中删除多少单词：25%？15%？30%？

此外，这是主要问题，因为 Tweets 与普通英语不同，许多无趣的词，例如“the”和“is”，不会经常出现，因此 TF-IDF 算法会给予高分.

现在，我知道我可以使用停止列表，但如果我可以避免它，我会很高兴（我有很多理由不使用停止列表）。

那么，总而言之，有没有什么办法可以规避无趣单词在 TF-IDF 中获得高分的问题？

编辑：我使用的是朴素贝叶斯分类器。