我有一家面包店的历史销售数据(每天,超过 3 年)。现在我想建立一个模型来预测未来的销售(使用工作日、天气变量等功能)。
我应该如何拆分数据集以拟合和评估模型?
- 是否需要按时间顺序进行训练/验证/测试拆分?
- 然后我会用训练集和验证集进行超参数调整吗?
- 对于时间序列问题,(嵌套)交叉验证是一个糟糕的策略吗?
编辑
以下是我在遵循@ene100 建议的 URL 后遇到的一些链接:
- Rob Hyndman 在理论和实践中描述“滚动预测起源” (使用 R 代码)
- 滚动预测原点的其他术语是“向前优化”(此处或此处)、“滚动地平线”或“移动原点”
- 这些技术似乎不会在不久的将来集成到 scikit-learn 中,因为“对这些技术的需求和开创性尚不清楚”(在此处说明)。
这是时间序列交叉验证的另一个建议。