机器算法验证 - 用于对短文本进行分类的复杂模型 - 吾爱随笔录

我有大约 30000 个书名分配到 6 个类别，我想构建可扩展且准确的分类器。到目前为止，我只能使用 Naive Baye 和LibLINEAR分类器，它们在 10 倍 CV 后都给了我（几乎）相同的精度和召回值，分别为 0.8 和 0.7。

我想知道如果我使用更复杂的模型是否能够做得更好。问题是复杂模型的时间复杂度似乎随着训练实例的数量超线性增加。例如，SVM（来自 WEKA 的 SMO 实现）已经在该数据上运行了过去 3 小时，而 Naive Baye 和 LibLINEAR 分别在大约 15 分钟和 40 分钟内完成。

我正在尝试为短文本分类（推特、短信等）构建一个通用框架，因此将对不同的数据集进行许多实验。我需要可扩展且运行良好的技术（我们都不是 :-)）。有什么建议么？

另一个问题是关于降维的。当我预处理我的文本时，我会应用词干提取、停用词删除并将文本转换为 tf-idf 矢量表示。降维技术（尤其是信息增益）似乎再次花费了非常长的时间。任何可扩展的方式来进行特征选择？通过 tf-idf 进行修剪会得到可接受的方法吗？

编辑1：通过“信息增益”，我的意思是信息增益。目前我没有做任何功能选择。