为什么 ELMo 的 word embedding 能比 glove 更好地表示单词?

数据挖掘 深度学习 nlp word2vec 词嵌入 表示
2021-09-16 19:20:29

我已阅读ELMo的代码。
根据我的理解,ELMo 首先A为所有单词初始化一个单词嵌入矩阵,然后添加 LSTM B,最后使用 LSTMB的输出来预测每个单词的下一个单词。

我想知道为什么我们可以输入词汇中的每个单词,并A在训练后从单词嵌入矩阵中得到最终的单词表示。

似乎我们丢失了 LSTM 的信息B

为什么嵌入可以在语言模型中包含我们想要的信息。

为什么训练过程可以将良好的词表示信息注入词嵌入矩阵A

1个回答

我错了。ELMo 还使用 LSTM 的输出进行上下文相关的表示。

仅来自词嵌入的输出是与上下文无关的表示。

为什么表示是有用的?

我认为这是因为,它正在学习单词之间的差异,而表示并不是单词的真正含义。