我把自己逼到了一个角落,有人可以解释一下吗?
我觉得我错过了一些明显的东西......
如果对于 LSTM,每一层都使用来自 t 和 t-1 的输入进行训练,那么这意味着如果我有一个包含 10 000 个观察值的训练集,那么网络将被训练以获得 10 000 个观察值并产生一个结果是所有这些的函数。如果我在一个包含 1 000 个观察值的测试集上使用它,为什么它会起作用?
或者,如果我想从一次观察中做出预测,这会起作用吗?
在 LSTM 的情况下,训练测试(在上面的玩具示例中)是否应该是 10000 个观测值(即 9000 个旧的“训练”观测值和 1000 个新的“测试”观测值)?