关于时间序列问题的训练和交叉验证

数据挖掘 时间序列 交叉验证
2022-02-20 23:10:13

我是机器学习的新手。

鉴于 2 月份的特征数据和流失结果,我的任务是预测用户是否会在 3 月份流失。但是,3 月份的数据泄露了,现在我被分配预测 4 月份的数据。

我的策略是用 2 月的数据训练模型,并用 3 月的数据进行交叉验证。然后,我将尝试使用使用 2 月数据训练的模型来预测 4 月数据。

以下是我的问题:

  • 我的策略好不好?
  • 还是应该同时附加 2 月数据和 3 月数据来预测 4 月数据?
1个回答

您可能想在此处查看我对相关问题的回答。

如果您想交叉验证时间序列数据,我建议您创建某种滑动窗口,在该窗口上训练您的模型并预测该窗口之后的下个月。

例如,您可以根据 2 月的数据训练模型,然后预测 3 月第一周的数据。然后滑动窗口以包含从 2 月第二周到 3 月第一周的数据,然后预测 3 月第二周的数据。您用于训练和测试的窗口长度是您需要自己尝试的参数,以查看什么可以获得最佳结果。

一旦你觉得你从交叉验证中得到了很好的结果,我会尝试在你拥有的所有数据上训练一个新模型,看看它在新数据上的表现如何。取决于你使用的数据和模型,这可能会在对更多数据进行训练后提供更好的结果。当然,这取决于您要解决的问题、数据的性质和您选择的模型。