数据挖掘 - 我们如何决定分类算法以使用巨大的训练规模？ - 吾爱随笔录

我正在解决一个问题二元分类问题，并且这个问题的训练规模很大（2910 亿）。由于tfidfvectorizer用于问题列，数据变得臃肿。在这里，在问题中，我必须对问题进行分类。

我使用过 Logistic 回归，还保留了 MultinomialNB、Randomforest 和 svm 进行训练。然而，与其做这样的试验和命中方法，有没有一个合乎逻辑的解释，为什么在这种情况下，一种分类算法必须比其他分类算法表现得更好。

以前，我尝试过随机森林和逻辑回归来过滤垃圾邮件，并观察到逻辑回归的训练误差比随机森林要小。我知道这可能是一个过度拟合的解决方案。但是有没有办法我可以肯定地说'this'是你必须使用的分类算法。

注意：我还没有删除停用词并进行一些降维。