Word2Vec:两个权重矩阵之间的差异

机器算法验证 自然语言 word2vec 词嵌入 词袋
2022-04-04 19:26:37

在 Word2Vec 算法中,学习了两个权重矩阵:
W:输入隐藏层矩阵
W':隐藏输出层矩阵

供参考,CBOW模型架构:
CBOW Word2Vec 模型架构

  1. 为什么选择 W 来表示词向量而不是 W' ?它们似乎都编码相同的信息。

  2. W'矩阵的解释是什么?就像 W 代表词嵌入一样。

1个回答

它们都捕捉到了语义这个词。不仅 W,有时 W' 也被用作词向量。甚至在某些(W+W')/2情况下也被使用,并且在该特定任务中获得了更好的结果。

另外需要注意的是,隐藏层之后没有使用激活函数,所以输入到输出的转换是W[i]*W'^T针对输入中的任意激活词 i。因此,对于每个单词向量,您都在尝试学习主要出现在其附近(上下文窗口)的单词。

您可以将两个线性变换视为,

  • 来自 n-hot 向量的语义编码器:词表到语义
  • 输出概率向量的语义解码器:语义到单词的概率分布。

形式上,W 和 W' 中的向量分别称为输入和输出词向量表示。