我正在尝试进行情绪分析,任务是将种族主义推文与其他推文分类。我读过很多文章,很多人提到要从列中删除最常见的 10 个单词,因为它们的存在对我们的文本数据分类没有任何用处。
所以这些是我数据集中最常见的 10 个单词。
[('love', 4271),
('day', 3572),
('amp', 2709),
('happy', 2651),
('u', 1840),
('time', 1771),
('im', 1770),
('life', 1756),
('like', 1700),
('today', 1591)]
如果我删除这些,我的分类模型会更准确吗?
同样,他们还建议从列中删除前 10 个罕见词。
我想知道为什么?任何帮助