数据挖掘 - 我应该使用哪个 Scikit-learn 应用程序来处理我的数据？（Python） - 吾爱随笔录

我应该使用哪个 Scikit-learn 应用程序来处理我的数据？（Python）

数据挖掘机器学习 Python 数据科学模型

2022-03-09 11:32:35

我正在编写一个程序，该程序将获取大量数据，例如叶绿素水平、水温、氮/磷水平等，以预测水体中藻类的生长。影响藻类生长的因素有很多。因此，我不知道应该在 Scikit-learn 库中使用哪个应用程序来容纳所有不同的列。藻类水平是其中之一。更具体地说，我要考虑其他 17 列（其中一半是数据可能不正确的标识符）。我应该使用什么来计算所有列？

1个回答

你的问题没有很好的定义。我想你想根据一些解释变量来估计/预测增长，所以 $y(X)$ . 首先你需要定义什么 $y$ 实际上是（绝对）数量还是增长率？

例如，您可以制定一个线性模型，例如：

y = β_{0} + β_{1} + X + u

$y = \beta_0 + \beta_1 + X + u$ 测量绝对量

y

$y$ 取决于一些

X

$X$ . 或者，您还可以查看如何

y

$y$ 变化，当

X

$X$ 通过使用更改

l o g

$log$ 转型

y

$y$ 或者

X

$X$ . 有关更多详细信息，请参阅此内容。要应用此类模型，您通常会使用线性回归。

但是，如果您只是进行预测（并且您不一定对解释回归系数感兴趣以找到平均边际效应 $X$ 在 $y$ )，您可以在 sklearn 中使用许多不同的模型类型。

包括几个解释变量是标准的（ $X$ )，所以这不是问题。请参阅各种 sklearn 示例，例如这个。

如果您只是进行预测，则可以从随机森林回归开始（因为这是最稳健的并且通常效果很好）。首先，将您的数据拆分为训练集和测试集。第二，在训练集上运行一个随机森林，第三，根据测试集测试你的模型。

其它你可能感兴趣的问题

上一篇如何测量深度学习模型的时间和内存复杂度？下一篇如何学习常识常数？看身体细节