我最近开始研究 LSTM 网络,因为我已经完成了我的 GA,并且正在寻找更困难的东西。我相信我正在使用经典的 LSTM(如果这有意义的话)并且有几个问题。
网络中的任何地方都需要 LSTM 单元吗?例如,我可以只在第一层和最后一层使用 LSTM 单元,而在其他任何地方都使用前馈单元吗?
如何在 LSTM 中实现偏差值?
假设我创建了一个预测句子接下来几个单词的网络,这是否意味着我的输出应该是网络可以使用的所有可能的单词?
我最近开始研究 LSTM 网络,因为我已经完成了我的 GA,并且正在寻找更困难的东西。我相信我正在使用经典的 LSTM(如果这有意义的话)并且有几个问题。
网络中的任何地方都需要 LSTM 单元吗?例如,我可以只在第一层和最后一层使用 LSTM 单元,而在其他任何地方都使用前馈单元吗?
如何在 LSTM 中实现偏差值?
假设我创建了一个预测句子接下来几个单词的网络,这是否意味着我的输出应该是网络可以使用的所有可能的单词?