我已阅读ELMo的代码。
根据我的理解,ELMo 首先A
为所有单词初始化一个单词嵌入矩阵,然后添加 LSTM B
,最后使用 LSTMB
的输出来预测每个单词的下一个单词。
我想知道为什么我们可以输入词汇中的每个单词,并A
在训练后从单词嵌入矩阵中得到最终的单词表示。
似乎我们丢失了 LSTM 的信息B
。
为什么嵌入可以在语言模型中包含我们想要的信息。
为什么训练过程可以将良好的词表示信息注入词嵌入矩阵A
?
我已阅读ELMo的代码。
根据我的理解,ELMo 首先A
为所有单词初始化一个单词嵌入矩阵,然后添加 LSTM B
,最后使用 LSTMB
的输出来预测每个单词的下一个单词。
我想知道为什么我们可以输入词汇中的每个单词,并A
在训练后从单词嵌入矩阵中得到最终的单词表示。
似乎我们丢失了 LSTM 的信息B
。
为什么嵌入可以在语言模型中包含我们想要的信息。
为什么训练过程可以将良好的词表示信息注入词嵌入矩阵A
?
我错了。ELMo 还使用 LSTM 的输出进行上下文相关的表示。
仅来自词嵌入的输出是与上下文无关的表示。
为什么表示是有用的?
我认为这是因为,它正在学习单词之间的差异,而表示并不是单词的真正含义。