我正在研究一个文本分类问题,目标是将新闻文章分类到相应的类别,但在这种情况下,类别不是很宽泛,如政治、体育、经济等,但密切相关,在某些情况下案件甚至部分重叠。这是一个单类分类问题,而不是多类分类问题。以下是我使用的方法的详细信息。
数据准备 -
- 破坏单词列表中的文档。
- 删除了停用词、标点符号。
- 进行了词干化。
- 用“#num#”替换数值以减少词汇量。
- 将文档转换为 TF-IDF 向量。
- 根据 TF-IDF 值对所有单词进行排序并选择前 20K 单词,这些将用作分类算法的特征列表。
- 使用 SVM。
我有17 个类别的4,500 个分类文档,我使用80:20的比例来训练和测试数据集。我使用了 Sklearn python 库。
我设法获得的最佳分类准确度是61%,我需要它至少为85%。
任何有关如何提高准确性的帮助将不胜感激。非常感谢。如果您需要更多详细信息,请告诉我。