什么是 LSTM-LM 公式?

数据挖掘 机器学习 神经网络 nlp rnn 机器翻译
2021-09-23 10:34:49

我正在阅读这篇论文“Sequence to Sequence Learning with Neural Networks” http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

在“2. 模型”下,它说:

LSTM 通过首先获得由 LSTM 的最后一个隐藏状态给出的输入序列 (x1,...,xT) 的固定维度表示 v,然后计算 y1,...的概率来计算此条件概率。. . ,yT' 使用标准LSTM-LM公式,其初始隐藏状态设置为 x1 的表示 v,. . . , xT:

我知道 LSTM 是什么,但什么是 LSTM-LM?我试过用谷歌搜索,但找不到任何好的线索。

2个回答

语言模型 (LM) 的定义是单词序列的概率分布。

LM 的简单说明是在给定前一个单词的情况下预测下一个单词。

例如,如果我有一个语言模型和一些初始单词:

  • 我将我的初始词设置为 My
  • name我的模型预测之后出现的概率很高My
  • 通过将初始单词设置为 My name,我的模型预测is出现在 之后的概率很高My name
  • 所以它就像:My-> My name-> My name is->My name is Tom等等。

您可以想到智能手机键盘上的自动完成功能。事实上,LM 是自动补全的核心。

因此,LSTM-LM只是简单地使用 LSTM(和 softmax 函数)来根据您之前的单词预测下一个单词。

顺便说一句,语言模型不限于 LSTM、其他 RNN (GRU) 或其他结构化模型。实际上,您还可以使用带有上下文/滑动/滚动窗口的前馈网络来预测给定初始单词的下一个单词。

在这种情况下,我认为这意味着您采用输出表示并学习一个额外的 softmax 层,该层对应于您的语言模型中的标记(在本例中为字母)。