我对时间序列数据使用分类模型,在将数据拆分为训练和测试之前对数据进行规范化。现在,我知道训练和测试数据应该分开处理,以防止数据泄露。这里规范化步骤的正确顺序是什么?在滑动窗口的帮助下拆分数据后,我是否应该分别应用步骤 1、2、3 来训练和测试?我在这里使用一个滑动窗口来比较每小时(测试)与之前的 24 小时数据(训练)。这是我目前在管道中使用的顺序。
- 移动平均线(平均值)
- 每小时重新采样
- 标准化
- 将数据拆分为训练并使用滑动窗口进行测试(长度为 24 小时(训练),每 1 小时滑动一次(测试))
- 使用训练数据拟合模型
- 使用测试数据进行预测