数据挖掘 - 为什么 RNN 共享权重？ - 吾爱随笔录

如果不共享权重，那么我理解的参数数量将非常大且难以计算。我不理解通过共享权重来处理不同长度输入的论点，如许多 StackExchange 答案中所述，例如https://stats.stackexchange.com/questions/221513/why-are-the-weights-of-rnn -lstm-networks-shared-across-time或在此博客中https://towardsdatascience.com/recurrent-neural-networks-d4642c9bc7ce。如果在下面的架构中，我在时间，那么所有的仍将具有相同的维度，因为每个单词的嵌入维度单词相同（每个 $W_{e}^{(t)}$ $t$ $W_{e}^{(t)}$ $e^{(t)}$ 大小相同）。如果我们在每个时间步同样采用不同的（假设所有隐藏状态具有相同数量的节点），那么所有也将具有相同的维度。它将等效于一系列普通 NN（输入是嵌入向量和先前隐藏的状态向量，分别是维度和）。那么时刻的 vanilla NN 会输出：那么使用相同的和如何解决输入序列长度可变的问题呢？ $W_{h}^{(t)}$ $W_{h}^{(t)}$ $e$ $h$ $t$ $h^{(t)}=\sigma(W_{h}^{(t)}h^{(t-1)}+W_{e}^{(t)}e^{(t)}+bias)$
$W_{h}$ $W_{e}$

另外，我知道在标准的 RNN 中，比如下面的隐藏状态，会存储先前时间步的上下文，那么这里对的解释是什么？ $W_{h}$