新手的块引导程序

机器算法验证 时间序列 引导程序
2022-03-11 21:49:15

把我的问题放在上下文中,我是一名物理学家,但对统计学的了解有限,而且我对它的了解是 30 多年前的事。

我正在尝试学习块引导,因为该技术可能适合解决我正在处理的问题。我可以找到很多关于块引导数学的论文/书籍/信息,但我想首先找到块引导过程的一般描述,然后再“冒险”解决移动块引导、圆形块引导、固定块引导等问题,块长度,样本大小等。

我用 10000 个观察值(行)对相关数据、5 个变量(列)进行过采样,我想将其减少到大约 100 行数据。数据是一个时间序列,但不是连续的,并且其中也可能有来自不同位置的数据,这意味着您可以同时拥有不同的数据(如果后者是块引导的问题,我可以删除“重复”数据及时)。块引导将允许复制数据的相关性。

最终目标是将数据集减少到约 100 行数据,以便所有 5 个变量的完整数据集和缩减数据集的 pdf 和 cdf 都相同(在仍有待定义的最小误差范围内)。

问题:1)块引导能够做到这一点吗?2)这是完成的一步一步的过程是什么?我不希望有人在这里详细写出完整的过程,但也许有人已经放了一个 youtube 视频或一个“傻瓜引导”,我可以从那里开始。

我在这里查看了关于块引导的类似问题,并且有一个关于“在时间序列分析中了解块引导的资源”,但答案中的参考假设我仍然必须掌握统计知识。

1个回答

时间序列的无模型重采样是通过块重采样完成的,也称为块引导,可以使用 R 的引导包中的 tsboot 函数来实现。这个想法是将系列分成大致相等长度的连续观察块,用替换重新采样块,然后将块粘贴在一起。例如,如果时间序列的长度为 200,并且使用 10 个长度为 20 的块,则这些块是前 20 个观察值,接下来是 20 个,依此类推。可能的重采样是第四个块(观察 61 到 80),然后是最后一个块(观察 181 到 200),然后是第二个块(观察 21 到 40),然后是第四个块,依此类推,直到有 10 个块在重采样中。 您如何使用时间序列数据进行引导?