什么是时间序列数据的组合清除交叉验证?

机器算法验证 机器学习 时间序列 交叉验证 金融
2022-03-20 08:53:43

我试图了解 Marcos Lopez de Prado 的“金融机器学习进展”一书(第 163 页)中描述的时间序列数据的“组合清除交叉验证”技术。

该设置被描述为研究人员想要测试“一些的回测路径”。我不太确定这意味着什么,但这是我目前所拥有的:ϕ

  • 一个时间序列被分成个顺序组N
  • 选择数字进行交叉验证k
  • 一个组合方程用于计算“路径数”:
    ϕ(N,k)=kN(NNk).

对于N=6组和k=2的情况,有ϕ(6,2)=5路径,书中的图 12.1 将它们排列为表格。“train/test CV split”的数量为15(6选2),索引为下表中的列。行是6组,里面的数字是从1到5的路径id。

在此处输入图像描述

该书指出,“路径 2 是结合来自 (G1,S2)、(G2,S6)、(G3,S6)、(G4,S7)、(G5,S8) 和 (G6,S9) 的预测的结果。 " 通过G组的时间流逝,我可以看到。我没有关注的是拆分与组的关系。

人们显然对这本书评价很高。这是某人解释组合清除交叉验证的视频,但它没有回答我的问题。谁能告诉我这里发生了什么?这真的是对前向交叉验证的进步吗?

2个回答

我有同样的问题,我问过在推特上创建该方法的人。这是他的回复的链接。

假设你有折。折叠(而不是标准的 1 个)的 CV估计值。您现在可以估计条 PnL 线,而不是 1 条PnL 线。6255

我的另一个热门问题。好吧,这里是自助,从说明情况下的 3 条路径的草图开始:N=4,k=2

在此处输入图像描述

安排 2 个测试集在 4 个时间段内发生的方法数是,而是将从测试开始的组合的分数放。由于“路径”是从第一个到最后一个连续组的连续块组,因此有 0.5 * 6 = 3 条路径,与问题中的对齐 。(42)=6kN=.5ϕ(N,k)

这是一个更复杂示例的草图,其中 N = 5 和 k = 2,导致 4 条路径:

在此处输入图像描述