我正在考虑两种策略来对时间序列预测进行“数据增强”。
首先,一点背景。预测器预测时间序列的下一步是一个通常取决于两件事的函数,时间序列过去的状态,以及预测器的过去状态:
如果我们想调整/训练我们的系统以获得良好的,那么我们需要足够的数据。有时可用的数据是不够的,所以我们考虑做数据增强。
第一种方法
假设我们有时间序列, 和. 并假设我们有满足以下条件:.
我们可以构建一个新的时间序列, 在哪里是分布的实现.
然后,而不是仅在, 我们也这样做了. 所以,如果优化过程需要步骤,我们必须“初始化”预测器次,我们将大约计算预测器内部状态。
第二种方法
我们计算和以前一样,但我们不使用更新预测器的内部状态, 但. 我们只在计算损失函数时将这两个系列一起使用,所以我们将大约计算预测器内部状态。
当然,这里的计算工作少一些(虽然算法有点丑),但暂时无所谓。
疑问
问题是:从统计的角度来看,哪个是“最佳”选项?为什么?
我的直觉告诉我,第一个更好,因为它有助于“规范”与内部状态相关的权重,而第二个只有助于规范与观察到的时间序列过去相关的权重。
额外的:
- 还有其他想法可以为时间序列预测进行数据增强吗?
- 如何对训练集中的合成数据进行加权?