退后一步并暂时忘记预测方面很有用。让我们考虑任何分布F并假设我们希望用一个数字来总结它。
你在统计学课上很早就学会了使用期望F作为单个数字摘要将最小化预期的平方误差。
现在的问题是:为什么要使用F最小化预期的绝对误差?
为此,我经常推荐Hanley 等人的“将中值可视化为最小偏差位置”。(2001,美国统计学家)。他们确实在论文中设置了一个小程序,不幸的是,这可能不再适用于现代浏览器,但我们可以按照论文中的逻辑进行操作。
假设你站在一排电梯前。它们可以等距布置,或者电梯门之间的一些距离可能比其他的大(例如,一些电梯可能出现故障)。当其中一部电梯到达时,您应该站在哪部电梯前进行最少的预期步行?请注意,这个预期的游走起到预期绝对误差的作用!
假设您有三部电梯 A、B 和 C。
- 如果您在 A 前面等候,您可能需要从 A 步行到 B(如果 B 到达),或者从 A 到 C(如果 C 到达)——经过 B!
- 如果您在 B 前面等候,则需要从 B 步行到 A(如果 A 到达)或从 B 步行到 C(如果 C 到达)。
- 如果您在 C 前面等候,您需要从 C 步行到 A(如果 A 到达)-经过 B - 或从 C 走到 B(如果 B 到达)。
请注意,从第一个和最后一个等待位置,有一段距离 - AB 在第一个位置,BC 在最后一个位置 - 您需要在多个电梯到达的情况下步行。因此,你最好的选择是站在中间电梯的正前方——不管三部电梯如何布置。
这是 Hanley 等人的图 1:
这很容易推广到三个以上的电梯。或者到有不同机会先到的电梯。或者实际上是可数无限多的电梯。所以我们可以将此逻辑应用于所有离散分布,然后传递到极限以达到连续分布。
要加倍回到预测,您需要考虑在特定未来时间段的点预测的基础上,存在(通常是隐含的)密度预测或预测分布,我们使用单个数字点预测对其进行总结。上述论点说明了为什么您的预测密度的中位数F^是最小化预期绝对误差或 MAE 的点预测。(更准确地说,任何中间值都可以,因为它可能不是唯一定义的——在电梯示例中,这对应于具有偶数个电梯。)
当然,中位数可能与预期完全不同,如果F^是不对称的。一个重要的例子是低容量计数数据, 尤其间歇时间序列. 确实,如果您有 50% 或更高的零销售机会,例如,如果销售是泊松分布的参数λ≤ln2,那么您将通过预测一个平坦的零来最小化您的预期绝对误差 - 这相当不直观,即使对于高度间歇性的时间序列也是如此。我为此写了一篇小论文(Kolassa,2016,International Journal of Forecasting)。
因此,如果您怀疑您的预测分布是(或应该是)不对称的,如上述两种情况,那么如果您希望获得无偏的期望预测,请使用rmse. 如果可以假设分布是对称的(通常对于大容量系列),则中位数和均值重合,并使用前还将指导您进行无偏预测 - MAE 更容易理解。
同样,最小化马佩可能导致有偏差的预测,即使对于对称分布也是如此。我的这个较早的答案包含一个模拟示例,该示例具有不对称分布的严格正(对数正态分布)序列,可以使用三种不同的点预测进行有意义的点预测,具体取决于我们是否要最小化 MSE、MAE 或 MAPE。