时间序列数据和 ML - 分离训练/测试数据

数据挖掘 时间序列 xgboost 训练
2022-03-14 09:11:07

我正在使用 XGBoost 尝试根据社交媒体情绪预测股市的走向。在阅读了一些研究之后,我计划按时间段分离训练/测试数据,例如使用 2014-2016 数据进行训练和 2016-2018 数据进行测试。

考虑到我使用的数据的性质,这是否具有直观意义?

我很高兴提供任何进一步的细节,这将是有帮助的,谢谢。

1个回答

当您使用时间序列数据时,最新数据可能会捕获最相关的信息,因此将它们包含在训练数据中更为谨慎。因此,更谨慎的决定是选择前滚分区。

Roll-Forward Partitioning:我们从一个较短的训练周期开始,然后逐渐增加它,在每次训练迭代中,我们在当前训练周期上训练它,并使其预测下一个数据区间。这将需要更多的训练时间,但它模仿了我们在部署期间会做的事情,我们希望定期训练我们的模型以使其保持最新状态。

您可以在此处此处此处找到更多相关信息。