我正在解决一个问题二元分类问题,并且这个问题的训练规模很大(2910 亿)。由于tfidfvectorizer用于问题列,数据变得臃肿。在这里,在问题中,我必须对问题进行分类。
我使用过 Logistic 回归,还保留了 MultinomialNB、Randomforest 和 svm 进行训练。然而,与其做这样的试验和命中方法,有没有一个合乎逻辑的解释,为什么在这种情况下,一种分类算法必须比其他分类算法表现得更好。
以前,我尝试过随机森林和逻辑回归来过滤垃圾邮件,并观察到逻辑回归的训练误差比随机森林要小。我知道这可能是一个过度拟合的解决方案。但是有没有办法我可以肯定地说'this'是你必须使用的分类算法。
注意:我还没有删除停用词并进行一些降维。