我正在阅读Alex Graves 编写的“使用循环神经网络进行监督序列标记”,试图理解 LSTM 网络,但我对这些方程有点困惑。
具体来说,我对“状态”一词感到困惑。在方程中使用时(第 4.5.2 节),它说:
我知道某些系统可能处于某种状态,例如,由于图中不同节点的值的设置。但是,在神经网络的情况下,如何描述一个状态?除了它是神经网络的状态(或循环神经网络中的几个时间步长的状态)之外,如何解释上述方程?
我正在阅读Alex Graves 编写的“使用循环神经网络进行监督序列标记”,试图理解 LSTM 网络,但我对这些方程有点困惑。
具体来说,我对“状态”一词感到困惑。在方程中使用时(第 4.5.2 节),它说:
我知道某些系统可能处于某种状态,例如,由于图中不同节点的值的设置。但是,在神经网络的情况下,如何描述一个状态?除了它是神经网络的状态(或循环神经网络中的几个时间步长的状态)之外,如何解释上述方程?
因此,您提到的方程式在执行反向传播的反向传播期间使用,以使神经网络更加准确。我认为您在谈论前传期间的状态,这是完全不同的。在前向传递中,神经网络只是简单地运行以进行评估,或者它只是用作模型。长期短期记忆网络中的重复模块如下所示: 正如您所见,该模块有许多不同的部分。有三个主要部分。第一个是遗忘门层。这一层告诉细胞状态或穿过停靠点的线要保留什么。细胞状态由这条线保持: 整个网络基于操纵这个细胞状态以获得准确的结果。您提到的方程式与用于训练神经网络的反向传播有关。这与单元状态有关,因为它用于在向后传递期间计算它。@BlueMoon93 提到这个方程中有 t+1 一个,但这是因为当循环神经网络通过每个模块向后传播时,时间从高到低。总而言之,LSTM 中的细胞状态是神经网络根据输入修改的向量之一。