与 LSTM 相比,Bi-LSTM 的优缺点是什么?

人工智能 自然语言处理 比较 长短期记忆 语言模型 双向lstm
2021-11-05 09:13:39

LSTMBi-LSTM在语言建模中的优缺点是什么?引入 Bi-LSTM 的必要性是什么?

1个回答

我想说,介绍背后的逻辑更多的是经验性的,而不是技术性的。LSTM 和 Bi-LSTM 之间的唯一区别是 Bi-LSTM 可以利用未来的上下文块来学习更好地表示单个单词。没有添加特殊的训练步骤或单元,这个想法只是向前和向后阅读一个句子以捕获更多信息。

尽管这个想法听起来微不足道,但事实上,在原始论文中,作者设法在三个标记任务中取得了最先进的分数,即词性标记、分块和命名实体识别。

尽管必须说这些分数与其他模型相比并没有显着提高,而且完整的架构还包括在 Bi-LSTM 之上的条件随机场。

可能需要强调的最重要方面是作者进行了两项有趣的比较测试:一项使用随机嵌入初始化,另一项仅使用单词(unigrams)作为输入特征。在这两种测试条件下,Bi-LSTM(顶部有 CRF)明显优于所有其他架构,证明 Bi-LSTM 表示比其他模型学习的表示更稳健。

我还想就人类阅读做一个旁注。将单向序列模型视为模拟人类阅读的最合理模型是有意义的,因为我们将阅读体验为从一个方向到相反方向的眼睛运动。但现实是扫视(真正快速的无意识眼球运动)和其他眼球运动在阅读中起着巨大的作用。这意味着我们人类也会不断地查看过去和未来的单词,以了解我们正在处理的单词或句子的目的。当然,在我们的案例中,这些动作是由隐含的知识和习惯指导的,这些知识和习惯使我们能够将注意力仅集中在重要的单词/部分(例如我们几乎不阅读连词),有趣的是注意到现在最先进的基于变换器的模型试图准确地学习这一点,注意在哪里而不是词汇表中每个单词的单一概率。