平均绝对标度误差 (MASE) 的解释

机器算法验证 时间序列 预测 准确性 马斯
2022-01-27 04:13:53

平均绝对比例误差 (MASE) 是Koehler & Hyndman (2006)提出的预测准确度的度量。

MASE=MAEMAEinsample,naive

在哪里MAE是实际预测产生的平均绝对误差;
尽管MAEinsample,naive是由天真的预测产生的平均绝对误差(例如,综合预测的无变化预测)I(1)时间序列),根据样本内数据计算。

(查看Koehler & Hyndman (2006)论文以获得精确的定义和公式。)

MASE>1意味着在平均绝对误差方面,样本外的实际预测比样本中的天真预测更差。因此,如果平均绝对误差是预测准确性的相关度量(取决于手头的问题),MASE>1建议如果我们期望样本外数据与样本内数据非常相似,则应放弃实际预测以支持幼稚预测(因为我们只知道样本中的幼稚预测执行得有多好,而不是样本)。

问题:

MASE=1.38在这篇Hyndsight 博客文章中提出的预测竞赛中被用作基准不应该有一个明显的基准MASE=1?

当然,这个问题并不特定于特定的预测竞争。我希望在更一般的背景下理解这一点得到一些帮助。

我猜:

我看到的唯一合理的解释是,一个天真的预测在样本外的表现比在样本中的表现要差得多,例如由于结构变化。然后MASE<1可能太具有挑战性而无法实现。

参考:

2个回答

链接的博客文章中,Rob Hyndman 呼吁参加旅游预测比赛。从本质上讲,博客文章旨在引起人们对相关IJF 文章的注意,该文章的非封闭版本在博客文章中链接到。

您所指的基准——每月 1.38、季度 1.43 和年度数据 2.28——显然是如下得出的。作者(他们都是专家预测者,并且在IIF中非常活跃——这里没有蛇油推销员)非常有能力应用标准预测算法或预测软件,他们可能对简单的 ARIMA 提交不感兴趣。所以他们去对他们的数据应用了一些标准方法。对于被邀请参加IJF论文的获奖提交,他们要求它改进这些标准方法中最好的,由 MASE 衡量。

所以你的问题基本上可以归结为:

鉴于 MASE 为 1 对应的样本外预测与样本内的天真随机游走预测一样好(通过 MAD),为什么像 ARIMA 这样的标准预测方法不能提高每月数据的 1.38?

此处,1.38 MASE 来自非门控版本的表 4。这是 ARIMA 提前 1-24 个月预测的平均 ASE。其他标准方法,如 ForecastPro、ETS 等,性能更差。

在这里,答案变得很难在不考虑数据的情况下判断预测准确性总是很成问题的。在这种特殊情况下,我能想到的一种可能性可能是加速趋势。假设您尝试预测exp(t)用标准方法。这些都不能捕捉到加速趋势(这通常是一件好事 - 如果您的预测算法经常模拟加速趋势,您可能会远远超过您的标记),并且它们将产生高于 1 的 MASE。其他解释可能,正如你所说,是不同的结构性中断,例如水平变化或 SARS 或 9/11 等外部影响,非因果基准模型无法捕捉到,但可以通过专门的旅游预测方法进行建模(尽管使用保留样本中的未来因果关系是一种作弊)。

所以我想说,如果不查看数据本身,您可能无法对此说太多。它们可以在 Kaggle 上找到。您最好的选择可能是使用这些 518 系列,坚持过去 24 个月,拟合 ARIMA 系列,计算 MASE,挖掘出 10 或 20 个 MASE 最差预测系列,喝一大壶咖啡,看看这些系列并尝试找出是什么让 ARIMA 模型在预测它们方面如此糟糕。

编辑:另一点在事后看起来很明显,但我花了五天时间才看到 - 请记住,MASE 的分母是样本内随机游走预测的领先一步,而分子是1-24-的平均值提前预测。预测随着视野的增加而恶化并不奇怪,因此这可能是 MASE 为 1.38 的另一个原因。请注意,季节性朴素预测也包含在基准中,并且具有更高的 MASE。

不是答案,而是斯蒂芬·科拉萨呼吁“看看这些系列”之后的情节。
Kaggle Tourism1 有 518 个年度时间序列,我们要预测最后 4 个值:

在此处输入图像描述

该图显示了“天真”常量预测器的错误,这里5th最后的:
Error4(y)14last 4|yiy5|
角落里的数字,81 12 ...,是Error4(y)作为范围的百分比,和length(y).
这 3 行是所有 518 个年度时间序列中最差的 10 个、中间的 10 个和最好的 10 个。

显然,非常短的系列——第一行的 12 11 7 7 7 ... ——很难预测:不足为奇。
(Athanasopoulos、Hyndman、Song 和 Wu, 旅游预测竞赛 (2011 年,23p)使用了 518 个年度系列中的 112 个,但我看不出是哪些。)

自 2010 年以来是否还有其他更新的时间序列系列值得一看?