数据挖掘 - 为什么 LSTM 能够预测 ARMA 信号，但不能预测 ARMA 信号的线性组合？ - 吾爱随笔录

我有一个 LSTM 网络，正在一些虚拟 ARMA 信号上对其进行测试。我试图预测未来 5 个时间步长的信号。

在预测信号时，网络能够胜过 Naive（持久性）。我的下一个玩具示例是进行多变量预测，其中我采用几个 ARMA 信号（ARMA_1 和 ARMA_2），目标变量是这些信号的线性组合（0.5 * ARMA_1 + 0.5 * ARMA_2）未来 5 个时间步长。训练数据集只是原始 ARMA 信号，目标只是与偏移量的线性组合。

然而，虽然训练损失有所改善，但一旦预测偏离平坦，验证损失就会变得更糟。所以模型是过拟合的。

该网络已经非常简单（LSTM 中有 8 个隐藏节点和几个隐藏层，其中有 16 个节点）。网络在单变量情况下不会过度拟合，所以我认为在多变量情况下过度拟合不应该是一个问题。任何更简单的网络都无法对单变量情况进行建模，因此我不想进一步简化它。

数据集中有足够多的样本，它应该能够学习信号。我已经完成了辍学、正则化和不同学习率的运行，但无济于事。

我想知道是否有人对为什么网络在这里过度拟合但在单变量情况下没有任何建议，即使使用相同的网络参数？