数据挖掘 - 关于冗余的哲学问题 - 吾爱随笔录

假设我实现了一个与此类似的LSTM 监督学习版本。即，我有这些单变量时间序列数据：

所以时间 1 的 Y 是 101，时间 2 的 Y 是 105，等等。

目标是在给定时间 t 和 t-1 的 Y 的情况下预测时间 t+1 的 Y。也就是说，我可以重新排列这个数据集，使其看起来像监督学习：

Y_(t-1) Y_t Y_(t+1)
101 105 108
105 108 104
108 104 110
104 110 112
110 112 119
112 119 111
119 111 113
111 113 115

请注意，从 t=3 到 t=10（最大值）的每个 Y 值仅被预测一次。

现在假设我将数据集划分为大小为 5 的重叠小批量。为简单起见，我们将只考虑前两个小批量：

我使用相同的技巧将其转换为每个小批量的监督学习问题：

Y_(t-1) Y_t Y_(t+1)
101 105 108
105 108 104
108 104 110

Y_(t-1) Y_t Y_(t+1)
105 108 104
108 104 110
104 110 112

注意：现在来自第一个 minibatch 的两个预测在第二个 minibatch 中重复。

我知道，如果我希望每个 Y 值只有一个预测，那么我应该先将整个数据集转换为有监督的，然后再创建小批量。

问题：

这种替代方法不正确吗？如果是这样，为什么？如果不是，我应该对预测进行平均，还是有另一种可以接受的方式来组合来自这样几个时间步的预测？

编辑：我应该提到模型的学习参数对于每个位置都是不同的，即使数据点是相同的。例如，用于预测 minibatch 1 中 Y_(t+1) = 104 的参数与用于预测 minibatch 2 中 Y_(t+1) = 104 的参数不同。

编辑2：我认为这种方法并不正确，只是可能有点奇怪。在某种程度上，它类似于双向 LSTM（向后和向前读取输入以增加网络对端点的暴露——即增强信号）。这也增强了信号，但可能会增加相当多的偏差。想法？