序列到序列编码器模型的输出是否与输入(Word2vec)存在于相同的语义空间中?

数据挖掘 nlp lstm 词嵌入 word2vec 序列到序列
2022-03-01 14:15:59

LSTM 编码器模块生成的输出是否与原始词向量存在于相同的语义空间中?如果是这样,例如我们有一个句子,我们将它传递给编码器以获得编码输出,然后我们还分别计算同一句子的词向量的平均值,这两个新向量(编码和平均值)是否具有可比性? 他们的欧式距离会比较小吗?

1个回答

不,假设您的输入向量是单热编码。这些输入的 one-hot 编码位于维欧几里得向量空间中。LSTM 的最后一个隐藏层不是由于编码器上的非线性激活函数。因此,输入的平均值不一定会在向量空间中与模型输出很好地对齐,也不能保证余弦/欧几里得距离的任何相似性。n