我最近了解了使用引导技术来计算估计器的标准误差和置信区间。我学到的是,如果数据是 IID,您可以将样本数据视为总体,并进行带放回抽样,这将允许您获得测试统计的多个模拟。
在时间序列的情况下,您显然不能这样做,因为可能存在自相关。我有一个时间序列,想计算固定日期前后数据的平均值。有没有使用修改版引导的正确方法?
我最近了解了使用引导技术来计算估计器的标准误差和置信区间。我学到的是,如果数据是 IID,您可以将样本数据视为总体,并进行带放回抽样,这将允许您获得测试统计的多个模拟。
在时间序列的情况下,您显然不能这样做,因为可能存在自相关。我有一个时间序列,想计算固定日期前后数据的平均值。有没有使用修改版引导的正确方法?
正如@cardinal 指出的那样,“块引导”的变体是一种自然的方法。在这里,根据方法,您可以选择时间序列的延伸,无论是否重叠,并且具有固定长度或随机,这可以保证样本的平稳性(Politis 和 Romano,1991 年),然后将它们缝合在一起以创建重新采样的时间序列你计算你的统计数据。您还可以尝试构建时间依赖性模型,从而产生马尔可夫方法、自回归筛等。但是块引导可能是这些方法中最容易实现的。
Gonçalves 和 Politis (2011)是一篇非常简短的评论,附有参考文献。书的长度处理是Lahiri (2010)。
Efron (1979) 中引入的重采样方法是为 iid 单变量数据设计的,但很容易扩展到多变量数据。如 中所述。如果是向量的一个样本,用来维护样本中数据的协方差结构。是否可以重新采样时间序列并不是很明显. 时间序列本质上是来自随机过程的大小为 1 的样本。对样本进行重采样是原始样本,因此通过重采样什么也学不到。因此,时间序列的重采样需要新的想法。
基于模型的重采样很容易被用于时间序列。重采样是通过模拟时间序列模型获得的。例如,如果模型是 ARIMA(p,d,q),则使用自回归和移动平均系数以及噪声方差的 MLE(来自差分序列)对 ARIMA(p,q) 模型进行重采样。重采样是模拟 ARIMA(p, q) 过程的部分和的序列。
时间序列的无模型重采样是通过块重采样完成的,也称为块引导程序,可以使用 R 的引导包中的 tsboot 函数来实现。这个想法是将系列分成大致相等长度的连续观察块,用替换重新采样块,然后将块粘贴在一起。例如,如果时间序列的长度为 200,并且使用 10 个长度为 20 的块,则这些块是前 20 个观察值,接下来是 20 个,依此类推。可能的重采样是第四个块(观察 61 到 80),然后是最后一个块(观察 181 到 200),然后是第二个块(观察 21 到 40),然后是第四个块,依此类推,直到有 10 个块在重采样中。