特别是,考虑到 LSTM 和 GRU 的变体以及用于训练的双向循环神经网络的复杂性是多少?
我希望我能获得一些其他研究论文的链接,这些论文在他们的作品中谈论或提到了这些方法的计算复杂性。我一直在寻找,但到目前为止还没有遇到任何有意义的事情
简单单层循环网络的计算复杂度,无论是普通 RNN、LSTM 还是 GRU,在训练时和推理时都与输入序列的长度成线性关系,所以O(n)O(n), 在哪里nn是输入序列的长度。这是因为为了获得最后一个时间步的输出,您需要计算所有之前的输出。
这是假设有一个输出。如果有多个输出时间步长,那么它在输入和输出长度的总和上是线性的。
考虑到,在 LSTM 和 GRUS 内部,有一些内部步骤可以解释复杂度中的常数乘法。
您可以通过许多不同的方式(更多层、跳过连接等)使网络架构复杂化,这会影响其计算复杂性。在这里,您可以找到对不同架构变体的计算复杂性的深入研究。