我正在尝试考虑结合引导程序和交叉验证 (CV) 来获得样本外预测误差及其置信区间的方法。我最初考虑将其应用于偏最小二乘分析,但问题更为笼统。
我已经阅读了一些似乎首先进行引导的论文(即随机重新采样数据),然后使用 CV 运行模型(并重复 B 次),以生成 r^2 值的分布(或用于预测的任何度量)你喜欢的错误)。这对我来说没有意义,因为它违背了 CV 的观点,因为在引导过程中,我认为这会使 36% 的数据重复值。
或者,我认为可以从计算 CV 预测值开始,然后对这些值进行引导重新采样,然后计算最终预测误差统计数据(例如 r^2)并重复以获得 r^2 的分布?但是,我不确定这种最终方法是否合理,因为通常在引导过程中,您首先重新采样数据并运行模型来计算输出。在这种情况下,模型已经运行,并且仅对预测值进行自举重采样以生成分布。
后一种方法是否合理?我一直在努力寻找这方面的论文,这些论文写得相对容易理解……