在 scikit-learn 中为缺失的目标向量值赋值

数据挖掘 Python scikit-学习 熊猫
2022-01-30 17:20:32

我有一个数据集,其中包含一个农场 10 年(2005 - 2014 年)的温度、降水和大豆产量数据。我想根据这些数据预测 2015 年的产量。

请注意,数据集有温度和降水的每日值,但每年只有一个产量值(因为作物收获发生在作物生长季节结束时)。

我想建立一个回归或其他一些基于机器学习的模型来预测 2015 年的产量,基于回归/其他一些模型,该模型是通过研究前几年的产量与温度和降水之间的关系得出的。

根据构建机器学习模型以根据环境数据预测作物产量,我sklearn.cross_validation.LabelKFold每年都使用相同的标签。

问题是,由于我每年只有一个目标值,我是否需要插值以填充一年中所有其他日子的目标值?我应该只为一年中的每一天使用相同的目标值吗?

1个回答

如果输入是一天,该模型可能不会有太多的预测能力。以这种方式无法捕获超过一天的天气模式。

相反,您应该将这些日子汇总在一起。您可以提出不同的特征来描述您更大的聚合时间单位(月、年)。例如平均降水量是一个非常简单的降水量。对数据进行分箱并在这些分箱中使用计数也可以。

更高级的选项会将时间一直滚动到一整年,并学习该级别的功能集。