我有一个数据集,其中包含一个农场 10 年(2005 - 2014 年)的温度、降水和大豆产量数据。我想根据这些数据预测 2015 年的产量。
请注意,数据集有温度和降水的每日值,但每年只有一个产量值(因为作物收获发生在作物生长季节结束时)。
我想建立一个回归或其他一些基于机器学习的模型来预测 2015 年的产量,基于回归/其他一些模型,该模型是通过研究前几年的产量与温度和降水之间的关系得出的。
根据构建机器学习模型以根据环境数据预测作物产量,我sklearn.cross_validation.LabelKFold每年都使用相同的标签。
问题是,由于我每年只有一个目标值,我是否需要插值以填充一年中所有其他日子的目标值?我应该只为一年中的每一天使用相同的目标值吗?