时空预报误差探索性分析

机器算法验证 预测 数据挖掘 随机过程 空间的 时空
2022-03-13 08:11:16

数据:我最近致力于分析风电生产预测误差的时空场的随机特性。形式上可以说是一个过程

(ϵt+h|tp)t=1,T;h=1,,H,p=p1,,pn
及时索引两次(与th) 和一次在太空中 (p) 和H是前瞻时间的数量(等于周围的东西24, 定期采样) ,T是“预测时间”的数量(即发布预测的时间,在我的情况下约为 30000,定期抽样),以及n是多个空间位置(未网格化,在我的情况下约为 300)。由于这是一个与天气相关的过程,我也有大量的天气预报、分析、气象测量可以使用。

问题:您能否描述一下您将对此类数据执行的探索性分析,以了解该过程的相互依赖结构(可能不是线性的)的性质,以便对其进行精细建模。

2个回答

在我看来,您有足够的数据来模拟预测误差的偏差(即系统地高估/低估[第一时刻]的趋势)及其方差[第二时刻]对时空和气象影响的依赖。

为了探索偏差,我会做很多散点图、热图或六边形图。为了探索可变性,我只是将原始错误平方,然后再做很多散点图、热图或六边形图。如果您有很多偏见,这当然不是完全没有问题,但它仍然可能有助于查看受协变量影响的异方差模式。

我的同事做了一个很好的技术报告,详细介绍了一种非常灵活的方法来拟合这些模型(如果需要,还允许对更高的矩进行建模),它还具有基于Mayr、Andreas的良好实现 gamboostLSSR芬斯克,诺拉;霍夫纳,本杰明;Kneib, Thomas 和 Schmid, Matthias (2010):用于高维数据的 GAMLSS——一种基于提升的灵活方法。. 假设您可以访问具有大量 RAM 的机器(您的数据集似乎很大),您可以估计各种半参数效应(如空间效应的平滑表面估计器或mboostth, 时空效应的张量积样条或气象效应的平滑交互等。希望该模型中的项足以解释预测误差的时空自相关结构,但您可能应该检查这些模型的残差是否存在自相关(即查看一些变异函数和 ACF)。

我们(一位同事和我)终于写了一篇关于那个的论文。为了总结事情,我们提出了两种解决方案来量化并给出错误沿丹麦和前瞻时间传播的(时空)传播的统计摘要。

  • 在第一个中,我们计算所有风电场对和所有前瞻时间对之间的相关性(这是 4 个变量的函数)。当一对固定时,我们证明相关函数在前瞻时间内有一个局部最大值,我们说这是传播!与给定的一对风电场相关的时间尺度由获得该局部最大值的时间滞后给出。绘制所有风电场对的局部相关最大值、允许获得该最大值的时间滞后以及连接风电场的空间向量,给出了图 1 的右侧。

图1

这可用于计算全局传播矢量,即线对之间传播速度的某种空间平均值。其中一部分显示在图 1 的左侧,并猜测错误的传播是在 Denamrk 的 West East (好吧,这并不令人意外 :))。我们还对不同的气象情况进行了有条件的分析,以显示传播与风(速度、方向)之间的关系。

  • 第二个与第一个正交(在某种意义上:))。对于每一次t我们拟合了具有恒定传播速度的时空(沿空间和前瞻时间)平面波模型。这给出了每个预测时间的传播速度t(和R2测量通过平面波模型获得的拟合质量)。然后您可以计算这些速度的统计数据,最终限制在平面波拟合良好的情况下。结果见图 2。

图 2

在第二种情况下,我们观察到时间平均传播速度与第一种情况下的空间平均传播速度具有相似的幅度。如果您想更认真地看待这项工作,论文就在这里