NNLM 具有以下参数集)。使用V表示词汇表中的单词数:
- 为上下文中的每个单词创建嵌入的矩阵。这种分布式嵌入在Rm空间。这个矩阵是C:V×m
- 转换连接的单词嵌入列表的矩阵(在当前大小的上下文中有效n−1)到隐藏层(大小h)。这个矩阵是H:(n−1)m×h
- 将隐藏层映射到词汇表中每个单词的非规范化概率的矩阵。这个矩阵是V:V×h
- 将上下文词嵌入连接到输出层的矩阵。此连接是可选的并且具有尺寸W:V×(n−1)m
注意:使用 SGD 进行训练时,仅用于单个示例n−1上下文中的单词在单词之外是活跃的V在词汇表中。我也省略了偏置项的参数向量b:V×1 当计算非归一化输出和计算隐藏层时(d:h×1)。
因此,我目前的理解是 NNLM 中的参数数量是:
dim(C)+dim(H)+dim(V)+dim(W)=(n−1)m×V+h×(n−1)m+V×h+V×(n−1)m