网络中的任何地方都需要 LSTM 单元吗?

人工智能 长短期记忆
2021-11-03 12:12:13

我最近开始研究 LSTM 网络,因为我已经完成了我的 GA,并且正在寻找更困难的东西。我相信我正在使用经典的 LSTM(如果这有意义的话)并且有几个问题。

网络中的任何地方都需要 LSTM 单元吗?例如,我可以只在第一层和最后一层使用 LSTM 单元,而在其他任何地方都使用前馈单元吗?

如何在 LSTM 中实现偏差值?

假设我创建了一个预测句子接下来几个单词的网络,这是否意味着我的输出应该是网络可以使用的所有可能的单词?

1个回答

对于问题 1)我不明白你在做什么...... LSTM 单元将在一个连续的输入块上工作,它会依次使用前一个时间步的状态和新的输入来生成下一个时间步。

问题2)请查看LSTM atchitectureLSTM 图片 如您所见,偏见已经存在,是否有特定的地方您想要它,它不是吗?

问题 3)通常是的,但归一化步骤可能很昂贵(例如 softmax),所以如果你想变得聪明,你可以使用负采样或分层 softmax——但通常,你预测给定所有可能单词的概率上一个文本