我正在编写一个程序,该程序将获取大量数据,例如叶绿素水平、水温、氮/磷水平等,以预测水体中藻类的生长。影响藻类生长的因素有很多。因此,我不知道应该在 Scikit-learn 库中使用哪个应用程序来容纳所有不同的列。藻类水平是其中之一。更具体地说,我要考虑其他 17 列(其中一半是数据可能不正确的标识符)。我应该使用什么来计算所有列?
我应该使用哪个 Scikit-learn 应用程序来处理我的数据?(Python)
数据挖掘
机器学习
Python
数据科学模型
2022-03-09 11:32:35
1个回答
你的问题没有很好的定义。我想你想根据一些解释变量来估计/预测增长,所以. 首先你需要定义什么实际上是(绝对)数量还是增长率?
例如,您可以制定一个线性模型,例如:
测量绝对量取决于一些. 或者,您还可以查看如何变化,当通过使用更改转型或者. 有关更多详细信息,请参阅此内容。要应用此类模型,您通常会使用线性回归。
但是,如果您只是进行预测(并且您不一定对解释回归系数感兴趣以找到平均边际效应在),您可以在 sklearn 中使用许多不同的模型类型。
包括几个解释变量是标准的(),所以这不是问题。请参阅各种 sklearn 示例,例如这个。
如果您只是进行预测,则可以从随机森林回归开始(因为这是最稳健的并且通常效果很好)。首先,将您的数据拆分为训练集和测试集。第二,在训练集上运行一个随机森林,第三,根据测试集测试你的模型。
其它你可能感兴趣的问题