如何填写时间序列中的缺失数据?

机器算法验证 时间序列 缺失数据 数据插补
2022-01-28 01:54:32

我有一大组污染数据,在 2 年的时间里每 10 分钟记录一次,但是数据中存在许多差距(包括一些一次持续几周的数据)。

数据似乎确实具有很强的季节性,与夜间相比,白天的变化很大,夜间的值变化不大,数据点较低。

我考虑过将黄土模型分别拟合到白天和夜间子集(因为它们之间存在明显差异),然后预测缺失数据的值并填充这些点。

我想知道这是否是解决此问题的合适方法,以及是否需要将局部变化添加到预测点中。

2个回答

答案将取决于您的研究设计(例如,横截面时间序列?队列时间序列,串行队列时间序列?)。Honaker 和 King 开发了一种对横截面时间序列有用的方法(可能对串行队列时间序列有用,取决于您的假设),包括用于估算此类数据的RAmelia II与此同时,斯普拉特公司。已经描述了一种不同的方法,可以在一些队列时间序列设计中使用,但在软件实现上很少见。

横断面时间序列设计(又名小组研究设计)是使用相同的研究方案(例如,相同的变量、仪器等)重复抽样(例如,每年)对人群进行抽样的设计)。如果抽样策略具有代表性,这些类型的数据会生成研究中每个人群的这些变量分布的年度图片(每个参与者或受试者一次测量)。

队列时间序列设计(又名重复队列研究设计、纵向研究设计,有时也称为小组研究设计)是对单个分析单元进行一次抽样并长期跟踪的设计。可以从一个或多个群体中以代表性方式对个体进行抽样。然而,随着时间的流逝,具有代表性的队列时间序列样本将越来越不能代表目标人群(至少在人类人群中),因为人们出生或老化到目标人群中,并且随着时间的推移而死亡或老化。随着移民和移民。

连续队列时间序列设计(又名重复、多队列和多队列,或小组研究设计)是使用相同的研究方案(例如,每年)重复抽样人群(例如,每年)的设计。例如,相同的变量、工具等),它在一段时间内(例如,在一年中)的两个时间点测量人口中的单个分析单位,以创建变化率的测量值。如果抽样策略具有代表性,那么这些类型的数据会生成研究中每个人群的这些变量的变化率的年度图片。

参考资料
Honaker, J. 和 King, G. (2010)。如何处理时间序列横截面数据中的缺失值美国政治学杂志,54(2):561-581。

Spratt, M.、Carpenter, J.、Sterne, JAC、Carlin, JB、Heron, J.、Henderson, J. 和 Tilling, K. (2010)。纵向研究中多重插补的策略美国流行病学杂志,172(4):478–4876。

您可以在 R 中使用imputeTS包。我相信您正在处理的数据是单变量时间序列。 imputeTS 包专门研究(单变量)时间序列插补。它提供了几种不同的插补算法实现。除了插补算法,该软件包还提供缺失数据统计的绘图和打印功能。好吧,我建议您查看缺失值的状态空间模型。这个包应该可以帮助您进行分析。