背景:我有一个每月生成的数据集(它与包含每月卡片人口统计和交易的卡片数据类似,并且可以在数据系列中间添加新帐户)。根据这些历史数据,我需要建立一个分类模型来预测下个月的二进制标签。
问题:哪种更好的交叉验证拆分类型可用于获得公平的模型分数评估(没有偏差和低方差)?为了清楚起见,我们需要 15 个月的训练数据,并且需要使用 5 倍交叉验证拆分对模型进行超调。我在下面有两个选项,但如果你有其他选项也没关系。
1.留一式的时间序列
- 折叠 1:训练 [1 2 3 4 5 6 7 8 9 10],测试 [11]
- 折叠 2:训练 [1 2 3 4 5 6 7 8 9 10 11],测试 [12]
- 折叠 3:训练 [1 2 3 4 5 6 7 8 9 10 11 12],测试 [13]
- 折叠 4:训练 [1 2 3 4 5 6 7 8 9 10 11 12 13],测试 [14]
- 折叠 5:训练 [1 2 3 4 5 6 7 8 9 10 11 12 13 14],测试 [15]
2. 带休止符类型的时间序列
- 折叠 1:训练 [1 2 3 4 5 6 7 8 9 10],测试 [11 12 13 14 15]
- 折叠 2:训练 [1 2 3 4 5 6 7 8 9 10 11],测试 [12 13 14 15]
- 折叠 3:训练 [1 2 3 4 5 6 7 8 9 10 11 12],测试 [13 14 15]
- 折叠 4:训练 [1 2 3 4 5 6 7 8 9 10 11 12 13],测试 [14 15]
- 折叠 5:训练 [1 2 3 4 5 6 7 8 9 10 11 12 13 14],测试 [15]
感谢您的回答,将非常感谢任何回应。