我遇到了一些最近的需求预测方法,这些方法提出的方法不是只生成一个点预测,而是输出一组预测分位数或计数分布。
训练了这样一个模型 - 你如何评估它的性能?
一旦您的实际值开始出现,每个时间步您只有一个值,您可以将其与输出的平均值或中位数进行比较,但是您将输出的“其余”与什么进行比较?除了 50% 分位数之外,您如何评估其他分位数?或者您如何评估除均值之外的分布的其他参数?
我遇到了一些最近的需求预测方法,这些方法提出的方法不是只生成一个点预测,而是输出一组预测分位数或计数分布。
训练了这样一个模型 - 你如何评估它的性能?
一旦您的实际值开始出现,每个时间步您只有一个值,您可以将其与输出的平均值或中位数进行比较,但是您将输出的“其余”与什么进行比较?除了 50% 分位数之外,您如何评估其他分位数?或者您如何评估除均值之外的分布的其他参数?
标准方法是使用概率评分。有关一些数学背景,请参阅Gneiting 和 Katzfuss (2014)。
概率评分度量的一个示例是基于弹球损失函数的分位数评分。对于整个预测范围内的每个时间段,您计算分位数---称之为, 和或自然下限,和或自然上限。然后,这 99 个值定义(大约)预测密度。
对于分位数预测和作为目标分位数,弹球损失 定义为:
注意等于,绝对误差值的一半。对于其他分位数,损失不是对称的。
为了评估完整的预测密度,然后在所有预测范围内的所有时间段内对所有目标分位数(从 0.01 到 0.99)进行平均。分数越低,预测越好。