神经网络语言模型中的参数数量

数据挖掘 神经网络 深度学习
2022-03-10 19:24:07

Bengio 等人的神经网络语言模型 (NNLM)一种广泛用于机器翻译、基于深度学习的文本摘要的结构。这个模型的计算复杂度是多少?

了解参数数量方面的复杂性有助于选择训练集的大小并确定所需的计算基础设施。

1个回答

NNLM 具有以下参数集)。使用V表示词汇表中的单词数:

  1. 为上下文中的每个单词创建嵌入的矩阵。这种分布式嵌入在Rm空间。这个矩阵是C:V×m
  2. 转换连接的单词嵌入列表的矩阵(在当前大小的上下文中有效n1)到隐藏层(大小h)。这个矩阵是H:(n1)m×h
  3. 将隐藏层映射到词汇表中每个单词的非规范化概率的矩阵。这个矩阵是V:V×h
  4. 将上下文词嵌入连接到输出层的矩阵。此连接是可选的并且具有尺寸W:V×(n1)m 注意:使用 SGD 进行训练时,仅用于单个示例n1上下文中的单词在单词之外是活跃的V在词汇表中。我也省略了偏置项的参数向量b:V×1 当计算非归一化输出和计算隐藏层时(d:h×1)。

因此,我目前的理解是 NNLM 中的参数数量是:

dim(C)+dim(H)+dim(V)+dim(W)=(n1)m×V+h×(n1)m+V×h+V×(n1)m

NNLM