哪些数据集适合使用 RNN、LGBM、TBATS、SARIMA 模型(主题、频率、来源)进行单变量时间序列预测?

数据挖掘 时间序列 数据集 lstm 预测
2022-03-06 15:04:28

我目前正在寻找合适的数据集(单变量时间序列),用于使用滞后特征或移动滞后特征窗口进行短期预测,以采用 LSTM、GRU、SARIMA、LGBM、TBATS 和 ETS 等模型。我已经能够在不使用外部特征的情况下成功实现每小时交通流量数据集的模型,但从那时起我尝试了 5 种不同的数据集,简单模型(ETS、ARIMA)给出了无意义的点预测,所以我真的不知道如何找到第二个合适的数据集。如果我不想碰运气,在尝试找到有用的数据集时应该注意什么?

到目前为止,我还研究了每日空气质量 AQI 数据、每小时水表消耗数据和每月电力需求数据,但简单模型的点预测从来没有用过。还是只是数据太随机而无法预测?

任何建议将不胜感激。

交通流量 电力需求 水质

2个回答

我在检查 ARIMA 方法时使用的数据集是您可以在此处找到的关于自 1949 年以来每月航空乘客历史数据的数据集。它显示了趋势和季节性,并且可以很好地搜索超参数 (p, d, q)实施 ARIMA。

您可以在下面找到我前一段时间作为快速检查获得的结果(蓝色表示真实数据,红色表示预测): 在此处输入图像描述

看看 M 竞赛的数据。M 竞赛是时间序列预测竞赛。因为有很多研究人员调查了这些时间序列,所以有很多基准分数可以用来比较你自己的模型。

数据:

M3比赛

M4比赛

M5比赛