为什么 RNN 共享权重?

数据挖掘 机器学习 nlp lstm rnn
2022-02-24 12:03:42

如果不共享权重,那么我理解的参数数量将非常大且难以计算。我不理解通过共享权重来处理不同长度输入的论点,如许多 StackExchange 答案中所述,例如https://stats.stackexchange.com/questions/221513/why-are-the-weights-of-rnn -lstm-networks-shared-across-time或在此博客中https://towardsdatascience.com/recurrent-neural-networks-d4642c9bc7ce如果在下面的架构中,我在时间 ,那么所有的仍将具有相同的维度,因为每个单词的嵌入维度单词相同(每个We(t)tWe(t)e(t)大小相同)。如果我们在每个时间步同样采用不同的(假设所有隐藏状态具有相同数量的节点),那么所有也将具有相同的维度。它将等效于一系列普通 NN(输入是嵌入向量和先前隐藏的状态向量,分别是维度)。那么时刻的 vanilla NN 会输出: 那么使用相同的如何解决输入序列长度可变的问题呢?Wh(t)Wh(t)ehth(t)=σ(Wh(t)h(t1)+We(t)e(t)+bias)
WhWe

另外,我知道在标准的 RNN 中,比如下面的隐藏状态,会存储先前时间步的上下文,那么这里对的解释是什么?Wh

在此处输入图像描述

0个回答
没有发现任何回复~