哪种 Spark MLlib 回归算法适合基于非数值特征的数值预测?

数据挖掘 机器学习 回归 阿帕奇火花
2022-02-23 19:44:19

我正在做Spark MLlib一个项目,我必须根据非数字特征对数字数据进行预测。regression algorithm我对从库中使用哪个感到有点困惑,Spark MLlib主要是因为这方面的新手。Spark MLlib 库中的算法有:

-linear models (SVMs, logistic regression, linear regression)
-naive Bayes
-decision trees
-ensembles of trees (Random Forests and Gradient-Boosted Trees)
-isotonic regression 

谁能给我一些指导,说明哪种算法适合基于非数字特征的数字数据预测?

2个回答

我会建议-ensembles of trees (Random Forests and Gradient-Boosted Trees)

是使用决策树处理此类数据的不错参考。

线性回归会起作用,但这里真正的问题是特征提取您必须以某种方式对分类特征进行编码,可能是通过矢量化它们。您可以对您的特征进行一次性编码,将它们视为文本并对它们进行计数,等等。