文本建模推荐使用哪些回归器?

数据挖掘 nlp 文本挖掘 回归 scikit-学习
2021-10-02 20:42:57

为了我自己的探索,我正在做一个销售预测项目。我正在使用从一组书中提取的文本来构建预测模型。

通过 scikit learn,我创建了一个 Tfidf,并与数字销售数字一起创建了一个 SGDRegressor。但我想和其他模特一起练习。

我正在查看可供我使用的选项,我想知道,在这种回归场景中还有哪些其他算法可能有用?和/或,scikit learn 中的哪些其他算法会将 tfidf 作为数据集?

1个回答

在 sklearn 中,任何需要稀疏数据的东西都可以从 TFIDF 中获取输出。

在 sklearn 中,基本上任何模型可以采用的所有数据要么是密集的(普通数组)要么是稀疏的(只存储值的位置!= 0)。您可以从稀疏转换为密集,但如果尝试,您可能会耗尽内存。

我非常喜欢在文本数据上使用线性算法(例如,sgdregressor 有很多不同的选项可供您使用)。但其他算法,如 Sergey 提到的随机森林和朴素贝叶斯模型也可以处理这类数据。基本上你正在寻找的是任何可以接受稀疏输入数据的东西。

(我过去在处理文本+其他数据时所做的一件事是从 sgd 对数据的分析中获取输出,并将该+其他数据提供给另一种算法,例如随机森林。这是一种简单且非常强大的方法)