处理指数平滑模型中的缺失数据

机器算法验证 时间序列 预测 缺失数据
2022-03-09 23:45:22

在指数平滑模型系列的背景下,似乎没有处理缺失数据的标准方法。特别是,预测包中称为ets的R 实现似乎只采用最长的子序列而不会丢失数据,以及 Hyndman 等人的“使用指数平滑进行预测”一书。似乎根本没有谈论丢失的数据。

如果我的用户明确要求我做更多的事情(并且如果丢失的数据不会发生得太近或发生在恰好相隔一个季节的太多时期)。特别是,我想到的是以下内容。在模拟过程中,每当我遇到缺失值时yt, 我会替换当前点预测y~t为了yt, 以便εt=0. 例如,这将使参数优化过程不考虑数据点。

一旦我对参数有一个合理的拟合,我就可以估计误差的标准差(假设是正常的平均值0) 并验证使用值ϵt从该分布生成的概率不会大大降低可能性。我也会使用这些值进行预测(使用模拟)。

这种方法有已知的陷阱吗?

1个回答

你的方法是有道理的。我使用了几年的商业软件就是这样做的。

您的大纲适用于单指数平滑 (SES),但当然您可以对趋势或季节性成分应用相同的处理。对于季节性的,您需要返回一个完整的季节性周期,就像更新一样。

另一种选择当然是简单地插入缺失值。这是较新版本的ets(..., na.action="na.interp").

根据我对状态空间模型的了解,将丢失的数据简单地视为未观察到应该不会太难。我不知道为什么这没有在forecast包中实现。快速搜索 Rob Hyndman 的博客并没有真正产生任何有用的信息。