比较经典时间序列预测方法(ARIMA/Prophet)与 ML 方法的最佳常用指标?

数据挖掘 时间序列 预测建模 xgboost 评估 有马
2021-10-13 00:34:59

我是时间序列预测的新手,希望将 ARIMA/Prophet 的性能与 XGBoost 模型在基于历史股市数据社交媒体情绪得分预测未来股市价值方面进行比较。

我更熟悉机器学习,所以通常会使用评估指标,如R2评估此类问题的模型性能。

是否有任何常见的评估指标可供 ARIMA/Prophet 等预测方法用于评估其准确性,以便我可以与 XGBoost 的预测准确性进行同类比较?

3个回答

MAPE 和 MASE 是用于时间序列的常用指标,您可能不熟悉。

MAPE - 平均绝对百分比误差:

马斯

MASE - 平均绝对比例误差:

在此处输入图像描述 参考:

https://blogs.oracle.com/datascience/7-ways-time-series-forecasting-differs-from-machine-learning

您还可以考虑使用多个指标进行评估,而不仅仅是一个,因为每个指标的目的略有不同。

一般来说,几篇文章中提到的最常见的指标(例如这篇文章)是相同的,我们也常用于非时间序列预测:

  • MAE 平均绝对误差
  • MSE 均方误差
  • RMSE 均方根误差

在线性回归之外,我还没有看到 R² 经常用于验证预测模型。事实上,它甚至不是用于区间尺度预测任务的 xgboost 开箱即用的指标之一。因此,您应该对所有事情都使用 RMSE。

编辑:

至少在 R 包中的 Prophet 涵盖了 RMSE、MAE 和 MAPE,所以你应该没问题。

请参阅 Rob J Hyndman 的论文,他是时间序列的先驱,并在 R 中贡献了预测包:另一个看预测准确性的措施

根据论文中的结论:

我们建议缩放误差成为预测准确性的标准度量,其中预测误差由使用朴素预测方法获得的样本内平均绝对误差进行缩放。这是广泛适用的,并且总是被定义和有限的,除非在所有历史数据都相等的不相关情况下。这种新的测量方法也很容易解释:MASE 值大于 1 表明预测更差,平均而言,它比来自朴素方法的样本内一步预测更差。

当然,在某些情况下,某些现有措施可能仍然是首选。例如,如果所有系列的规模相同,那么 MAE 可能是首选,因为它更易于解释。如果所有数据都是正数并且远大于零,出于简单的原因,MAPE 可能仍然是首选。但是,在存在非常不同的尺度(包括接近零或负数的数据)的情况下,我们建议 MASE 是预测准确性的最佳可用度量。