大小大于原始样本的 Bootstrap 样本

机器算法验证 时间序列 引导程序 蒙特卡洛 加奇 波动率预测
2022-03-22 07:31:05

我想使用适合我的数据的ARMA-GARCH模型来预测20 天的未来回报。目标是估计不同的风险度量,如 VaR 或 CVar。特别是说我使用 AR(1) GARCH(1,1)。我用于估计的样本有 500 次观察每日对数回报。这就是我通常做的:

  1. 估计 AR、ARCH 和 GARCH 系数
  2. 通过将残差除以估计的条件方差来计算标准化残差
  3. 标准化残差构成了我的INVARIANTS,它是 iid 系列,我从中提取引导样本以生成场景。

通过模拟 1 和样本大小(在本例中为 500)之间的均匀分布,然后在标准化残差向量中取对应于该位置的值来提取引导样本。

问题是我只有 500 个标准化残差,我认为 500 是我可以提取的引导样本的最大大小

观察的原始样本中提取了 100000N=500观察。

我觉得这在概念上是不正确的。模拟前进一步将产生与最初的完全相同的场景,但重复的值不会添加任何信息。

我的同事声称,如果他想在更长的时期内进行投影,例如 20 天的范围,则从 N=500 obs 的原始样本中提取 100000 次。将在最终范围内产生许多不同的场景,从而提供平滑的 CDF。实际上这是正确的,因为尽管在第一步中只是简单地重复了这些值,但之后它们可以以许多不同的方式进行总结。

话虽如此,我觉得这是不对的。我提出了一个替代方案,即:

  1. 从标准化残差创建一个平滑的经验 CDF,比如内核
  2. 提取 0 和 1 之间的制服并将其馈送到经验平滑 CDF,即逆变换

这样一来,我可以更自在地说我可以生成一个比原始样本更大的引导样本,但我仍然不确定。

我正在研究 Efron 的一本书的引导理论

Efron, Tibshirani - Bootstrap 简介 - Springer US (1993)

但是有很多概念我还不明白。

我的问题是:

  1. 你能就我刚才在下面展示的问题发表你的看法吗?
  2. 除了我提到的那本书,你会推荐任何有效的数学来学习引导程序吗?
  3. 我认为 bootstrap 的这种应用与 Efron 的 bookm 中解释的应用有所不同,即评估估计参数的置信区间。你怎么看待这件事?

任何评论将不胜感激

我为帖子的长度道歉,但我尽量简洁。谢谢

2个回答

自举的目标是(通常)了解参数估计的分布。由于参数估计是基于大小为的样本形成的,因此它们的分布取决于该样本大小。因此,将重新采样到更大或更小的样本量。的重新采样相比,给出参数估计分布的更扭曲的视图NN

但是,在这种情况下,您实际上并没有执行 Efron 引导程序。您只是根据 500 个估计错误生成样本路径的模拟值。因此,您是否可以生成超过 500 个这样的样本路径的问题是没有实际意义的。正如 Johan 指出的那样,您可以根据需要生成任意数量的内容。

由于您将所有结果都基于一组初始参数估计,因此样本路径取决于该组是否正确。最终结果的可变性并未考虑参数的不确定性,而 Efron 引导程序旨在帮助解决这种额外的可变性。包含引导程序的过程可能是:

  1. 从最初的一组标准化残差中选择一个包含 500 个值的样本(带替换)(这 500 个是“500”,它给你思考问题带来了很多麻烦,Efron 在书中提到,)
  2. 使用这些标准化残差和您的初始参数估计值计算原始系列的模拟版本,
  3. 使用原始系列的模拟版本重新估计参数,
  4. 使用来自重新估计的参数和原始数据的标准化残差来生成一些(小)数量的未来样本路径,M
  5. 如果您已经生成了足够多的整体样本路径,则退出,否则转到 1。

步骤 1 到 3 是 Efron 引导程序发挥作用的地方。第 4 步是当前执行的模拟。请注意,在每次迭代中,您都会生成新的标准化残差以供模拟器使用;这将减少结果对初始参数估计/标准化残差集的依赖性,并在一定程度上考虑参数估计本身的不准确性。

如果您在步骤 1 和 2 中生成个引导估计,您将生成KKM练习结束时的总样本路径。你应该如何划分它们KM在某种程度上取决于所涉及的各种计算负担,但也取决于对随机性的贡献如何在参数估计误差和样本路径可变性之间分配。作为一般规则,您的参数估计越准确,越小K可; 相反,对于给定的参数估计值,样本路径变化越小,越小M可。

从经验分布中抽取超过 500 个样本是完全可以的。

500 个标准化残差构成了经验分布,您可以从中抽样实现zt+h这是多步预测所需要的。在提前一步的情况下,不需要抽签,因为时间有条件波动t+1根据当时的信息集已知t.

正如您所做的那样,从经验分布中替换一个样本。因此,您可以根据需要获得尽可能多的抽奖。您只需要以与假设 iid N(0,1) 相同的方式来考虑经验分布。

基于模拟的预测基于模拟波动路径的平均值。当增加模拟次数时,平均值将更接近“真实”预测。一个有趣的练习是假设ztiid N(0,1) 并将其与分析 GARCH 预测进行比较——使用大量自举样本,这两个预测将是相同的。

另一种方法是将分布(参数或非参数)拟合到获得的标准化残差并从中提取。