出于相当大的项目的目的,我正在对一些文档进行文本挖掘。我的步骤很常见:
- 全部小写
- 代币化
- 停用词表和停用词
- 词形还原
- 词干
- 其他一些步骤,例如删除符号。
然后我准备词袋,制作 DTF 并使用 SVM 和朴素贝叶斯分类为 3 个类。
但是我得到的准确率并不算太高(50-60%)。我认为这可能是因为在所有步骤之后的单词数组中仍然有很多非常不相关的单词,例如文档中的名字和姓氏。在这种情况下是什么态度?在预处理期间可以做些什么来使分类器以更高的精度更好地工作?
我正在考虑准备一些词典,其中包含与我所在地区相关的所有单词,但这可能太难了,肯定会遗漏一些重要的单词。
有什么建议可以在这里做吗?