我们如何决定分类算法以使用巨大的训练规模?

数据挖掘 分类 随机森林 逻辑回归 数据科学模型 tfidf
2022-02-21 18:43:42

我正在解决一个问题二元分类问题,并且这个问题的训练规模很大(2910 亿)。由于tfidfvectorizer用于问题列,数据变得臃肿。在这里,在问题中,我必须对问题进行分类。

我使用过 Logistic 回归,还保留了 MultinomialNB、Randomforest 和 svm 进行训练。然而,与其做这样的试验和命中方法,有没有一个合乎逻辑的解释,为什么在这种情况下,一种分类算法必须比其他分类算法表现得更好。

以前,我尝试过随机森林和逻辑回归来过滤垃圾邮件,并观察到逻辑回归的训练误差比随机森林要小。我知道这可能是一个过度拟合的解决方案。但是有没有办法我可以肯定地说'this'是你必须使用的分类算法。

注意:我还没有删除停用词并进行一些降维。

1个回答

我不认为有一个明确的标准来决定使用什么方法。据我所知,您有大量数据,问题是“复杂”(语言)。这是进行“深度”学习(例如神经网络boosting )的原因。原因是两者都可以很好地处理“非线性”。

我想到的另一件事是,例如,当您使用 logit 时,您会遇到一个问题,即您有很多特征(单词),并且可能只有一定份额的特征是相关的。因此,在这种情况下,您将尝试摆脱对做出良好预测没有帮助的特征。使用 logit,lasso 方法(l1 惩罚)将是很自然的事情,可以“缩小”特征。