我应该使用哪个 Scikit-learn 应用程序来处理我的数据?(Python)

数据挖掘 机器学习 Python 数据科学模型
2022-03-09 11:32:35

我正在编写一个程序,该程序将获取大量数据,例如叶绿素水平、水温、氮/磷水平等,以预测水体中藻类的生长。影响藻类生长的因素有很多。因此,我不知道应该在 Scikit-learn 库中使用哪个应用程序来容纳所有不同的列。藻类水平是其中之一。更具体地说,我要考虑其他 17 列(其中一半是数据可能不正确的标识符)。我应该使用什么来计算所有列?

1个回答

你的问题没有很好的定义。我想你想根据一些解释变量来估计/预测增长,所以y(X). 首先你需要定义什么y实际上是(绝对)数量还是增长率?

例如,您可以制定一个线性模型,例如:

y=β0+β1+X+u
测量绝对量y取决于一些X. 或者,您还可以查看如何y变化,当X通过使用更改log转型y或者X. 有关更多详细信息,请参阅内容。要应用此类模型,您通常会使用线性回归

但是,如果您只是进行预测(并且您不一定对解释回归系数感兴趣以找到平均边际效应Xy),您可以在 sklearn 中使用许多不同的模型类型

包括几个解释变量是标准的(X),所以这不是问题。请参阅各种 sklearn 示例,例如这个

如果您只是进行预测,则可以从随机森林回归开始(因为这是最稳健的并且通常效果很好)。首先,将您的数据拆分为训练集和测试集第二,在训练集上运行一个随机森林,第三,根据测试集测试你的模型。