数据输入不确定性+蒙特卡罗模拟+预测

机器算法验证 预测 蒙特卡洛
2022-04-17 11:34:41

考虑一个变量Y(例如,温度)。假设我们能够估计过去每年的这个变量N年使用某种类型的模型。这意味着我们可以访问 Y 的年度估计值(表示为Y1,,YN) 和相关的标准误S1,,SN. 目标是产生一个点预测值Y在 N+1 时,其中包含估计的年度值中存在的不确定性Y1,,YN.

一种方法是使用蒙特卡罗模拟来创建一个集合B= 100,000(或足够大的数量)通过移动每个原始值获得的合成时间序列Y1,,YN通过随机 z 分数(即高斯白噪声),按标准误差缩放St. (这种方法假设Y1,,YN是独立的。)

然后可以使用每个合成系列来生成 (I) 的点预测Y有时N+1(II) 区间预测Y有时N+1.

我的问题是:

我们如何总结模拟点预测和区间预测所传达的信息来量化存在的不确定性Y1,,YN及其对预测输出的影响?

对于点预测,报告点预测的模拟分布是有意义的。但是这种分布的哪个方面捕捉到了不确定性(例如,传播)?

对于区间预测,尚不清楚(至少对我来说不是)如何进行。有没有办法量化预测输入中的不确定性(即,Y1,,YN) 当涉及到这些间隔的宽度和/或覆盖范围时?(也许通过使用某种类型的预测过程的回顾性表现?)

1个回答

您有两个不确定性来源:历史数据中的不确定性,以及根据历史数据生成预测的不确定性。点预测的模拟分布仅捕捉历史数据中的不确定性。

为了捕捉联合不确定性,我建议您从每个合成时间序列的预测分布中模拟一个未来值。也就是说,对于每个合成时间序列,计算点预测和预测方差,然后从这个分布中模拟一个值。这些模拟的未来值包括预测分布和历史数据中的不确定性。

您可以根据未来值的百分位数计算预测区间,并将其宽度与为每个合成系列生成的预测区间的大小进行比较。