似乎堆叠 LSTM 层对于一些问题设置可能是有益的,以便学习数据中时间关系的更高级别的抽象。已经有一些关于选择隐藏层数和每层单元数的讨论。
我的问题:对于堆栈中从一个 LSTM 层到后续 LSTM 层的单元的相对数量是否有任何指导?我对涉及时间序列预测的问题特别感兴趣(给定一系列时间数据,预测该数据在未来某个时间窗口内的趋势),但我也很想知道其他问题设置。
例如,假设我将 3 个 LSTM 层堆叠在一起:LSTM1、LSTM2、LSTM3,其中 LSTM1 更靠近输入,LSTM3 更靠近输出。以下任何关系是否有望提高性能?
- num_cells(LSTM1) > num_cells(LSTM2) > num_cells(LSTM3) [尺寸减小输入到输出]
- num_cells(LSTM1) < num_cells(LSTM2) < num_cells(LSTM3) [尺寸增加输入到输出]
- num_cells(LSTM1) < num_cells(LSTM2) > num_cells(LSTM3) 【中间层最大】
显然还有其他组合,但在我看来,这些组合是显着的模式。我知道答案可能是“这取决于您的问题,没有一般指导”,但我正在寻找一些迹象,说明我可以从这些不同的配置中获得什么样的行为。