Word2Vec:两个权重矩阵之间的差异
机器算法验证
自然语言
word2vec
词嵌入
词袋
2022-04-04 19:26:37
1个回答
它们都捕捉到了语义这个词。不仅 W,有时 W' 也被用作词向量。甚至在某些(W+W')/2
情况下也被使用,并且在该特定任务中获得了更好的结果。
另外需要注意的是,隐藏层之后没有使用激活函数,所以输入到输出的转换是W[i]*W'^T
针对输入中的任意激活词 i。因此,对于每个单词向量,您都在尝试学习主要出现在其附近(上下文窗口)的单词。
您可以将两个线性变换视为,
- 来自 n-hot 向量的语义编码器:词表到语义
- 输出概率向量的语义解码器:语义到单词的概率分布。
形式上,W 和 W' 中的向量分别称为输入和输出词向量表示。
其它你可能感兴趣的问题