理解遗忘门的线性代数

数据挖掘 神经网络 lstm rnn
2022-02-16 11:24:58

博客涵盖了 LSTM 的基础知识。

遗忘门定义为:

ft=σ(Wf[ht1,xt]+bf)

在这一点上,线性代数让我更加困惑。的语法W[h,x]在这种情况下令人困惑。我认为一个向量应该进入激活函数,因为输出f是一个向量,但上面遗忘门的语法意味着输入有2列因为[h,x]将是一个n×2矩阵

为了举例,让我们说......

W=[0123]h=[12]x=[30]b=[12]

谁能给出进入 sigmoid 函数的最终向量?

我认为数学是

[0123][3320]+[12]=[2046]+[12]= Something wrong

2个回答

注意

[ht1,xt]
是两个向量的串联。在您的示例中,它将是:
[ht1,xt]=[1,2,3,0]
然后是尺寸Wf将会2×4, 在哪里2是LSTM单元输出的维度,即激活ht, 你定义的维度2.

因此,

Wf[ht1,xt]
是维数矩阵的乘法2×4由一个向量4,这将返回一个维度向量2. 然后将 sigmoid 函数逐点应用于结果的两个元素中的每一个。

希望这是有道理的。

我将其解释为

ft=σ(Wf[ht1xt]+bf)

那是Wf具有与条目一样多的列ht1xt. Wf也有尽可能多的行bf. 这将使维度匹配并产生向量输出。