MAPE 是一个很好的误差测量统计量吗?还有什么替代品?

机器算法验证 时间序列 预测 错误 马佩
2022-03-15 11:51:34

我有一个处理降雨的时间序列。它为期 10 年(每日分辨率),涵盖气候变量。

我将把数据输入人工神经网络以预测降雨变量 (PP)。

正如我一直在阅读的那样,MAPE 的公式涉及除以实际观察值。但由于降雨,将有几天降水量很少或为零。

这很糟糕(除以零 = 黑洞)。那么我该怎么做呢?我可以对零或接近零的值进行数据替换,但这很愚蠢 - 如果我这样做,我会夸大很多东西,并且在某种程度上篡改了数据(与缺失值不同,应该估算通过其他数据而不是用其他任意值填充)。

我的教授像骡子一样固执。MAPE有什么替代品吗?或者有什么方法可以规避 MAPE 的问题?

编辑

数据集中有小值和零值……我现在是不是搞砸了?

1个回答

不,实际上 MAPE 是非常差的误差度量,正如 Stephan Kolassa 在优化 MAPE预测准确性的最佳方式- 另一种度量而不是 MAPE和最小化对称平均绝对百分比误差 (SMAPE)那些幻灯片中所讨论的那样。您还可以查看以下论文:

Tofallis, C. (2015)。更好地衡量模型选择和模型估计的相对预测精度。运筹学学会杂志,66(8),1352-1362。

Goodwin 和 Lawton (1999) 在On the asymmetry of the symmetric MAPE论文中也对此进行了讨论

尽管 MAPE 被广泛使用,但它有几个缺点(Armstrong & Collopy,1992;Makridakis,1993)。特别是,Makridakis 认为 MAPE 是不对称的,因为“高于实际值的相同误差导致 APE 大于低于实际值的误差”。类似地,阿姆斯特朗和科洛比认为,“MAPE ……对超出实际的预测的惩罚比对低于实际的预测要重。例如,MAPE 在低端有 100% 的误差,但在高端没有限制。

引用的 (Makridakis, 1993) 论文为不对称提供了一个很好的例子,当预测值为150预测是100, MAPE 是|150100150|=33.33%,而当预测值为100预测是150MAPE 是|100150100|=50%尽管这两个预测都是错误的50单位!

上述参考资料和其他来源的数量表明,如果您使用 MAPE 作为选择预测的标准,这将导致有偏差和低估的结果。此外,当预测值为零时,您会遇到问题。

如何解释 Weka 输出中的错误度量?线程你可以找到其他错误措施的简要回顾。