当我研究 GRU 和 LSTM 单元内部的计算方程时,我意识到虽然不同的门有不同的权重矩阵,但它们的整体结构是相同的。它们都是权重矩阵及其输入的点积,加上偏差,然后是学习的门控激活。现在,计算之间的差异取决于权重矩阵彼此不同,也就是说,这些权重矩阵专门用于专门处理诸如遗忘/保持等特定任务。
但是这些矩阵都是随机初始化的,而且在训练方案中似乎没有特殊的技巧来确保这些权重矩阵的学习方式使相关的门专门从事他们想要的任务。它们都是随着梯度下降不断更新的随机矩阵。
那么,例如,遗忘门是如何学习作为遗忘单元的呢?同样的问题也适用于其他人。我是否错过了这些网络培训的一部分?我们能说这些单元相互学习真正解开的功能吗?