数据挖掘 - 为什么 ELMo 的 word embedding 能比 glove 更好地表示单词？ - 吾爱随笔录

我已阅读ELMo的代码。
根据我的理解，ELMo 首先A为所有单词初始化一个单词嵌入矩阵，然后添加 LSTM B，最后使用 LSTMB的输出来预测每个单词的下一个单词。

我想知道为什么我们可以输入词汇中的每个单词，并A在训练后从单词嵌入矩阵中得到最终的单词表示。

似乎我们丢失了 LSTM 的信息B。

为什么嵌入可以在语言模型中包含我们想要的信息。

为什么训练过程可以将良好的词表示信息注入词嵌入矩阵A？