最近,我一直在研究 seq2seq 模型,这些模型已用于使用循环神经网络(通常使用 LSTM 单元)将一种语言翻译成另一种语言。
这些模型也可用于生成文本,一次一个字符。基于其有效编码先前字符的内部存储器,该模型学习下一个字符的概率分布。
在查看这些 seq2seq 模型的各种实现时,比如这个,我看到一个嵌入矩阵是与神经网络联合训练的。据我了解,该矩阵的每一行都是特定字符的“嵌入”(每个字符由一个整数表示:它在有限词汇表中的 id)。
使用这种嵌入的理由是什么?它是干什么用的?为什么需要它?
LSTM:长短期记忆