我有大约 30000 个书名分配到 6 个类别,我想构建可扩展且准确的分类器。到目前为止,我只能使用 Naive Baye 和LibLINEAR分类器,它们在 10 倍 CV 后都给了我(几乎)相同的精度和召回值,分别为 0.8 和 0.7。
我想知道如果我使用更复杂的模型是否能够做得更好。问题是复杂模型的时间复杂度似乎随着训练实例的数量超线性增加。例如,SVM(来自 WEKA 的 SMO 实现)已经在该数据上运行了过去 3 小时,而 Naive Baye 和 LibLINEAR 分别在大约 15 分钟和 40 分钟内完成。
我正在尝试为短文本分类(推特、短信等)构建一个通用框架,因此将对不同的数据集进行许多实验。我需要可扩展且运行良好的技术(我们都不是 :-))。有什么建议么?
另一个问题是关于降维的。当我预处理我的文本时,我会应用词干提取、停用词删除并将文本转换为 tf-idf 矢量表示。降维技术(尤其是信息增益)似乎再次花费了非常长的时间。任何可扩展的方式来进行特征选择?通过 tf-idf 进行修剪会得到可接受的方法吗?
编辑1:通过“信息增益”,我的意思是信息增益。目前我没有做任何功能选择。