我正在尝试利用 RF 回归来预测造纸厂的性能。
我有每分钟的输入数据(进入木浆的速度和数量等)以及机器性能(生产的纸张、机器消耗的功率),我希望在 10 分钟内做出预测在性能变量上领先。
我有 12 个月的数据,因此将其分为 11 个月的训练集和最后一个月的测试。
到目前为止,我已经为每个性能变量创建了 10 个滞后值 1-10 分钟的新特征,并使用这些以及输入进行预测。测试集上的表现非常好(系统非常可预测),但我担心我的方法中遗漏了一些东西。
例如,在本文中,作者陈述了他们测试随机森林模型预测能力的方法:
模拟通过迭代添加新一周的数据、根据更新的数据训练新模型并预测下一周的爆发次数来进行
这与使用时间序列中的“后期”数据作为测试有何不同?我是否应该使用这种方法以及测试数据集来验证我的 RF 回归模型?此外,这种随机森林回归的“自回归”方法对时间序列有效吗?如果我对未来 10 分钟的预测感兴趣,我是否甚至需要创建这么多滞后变量?