我一直在阅读有关 LSTM 如何无法记住序列的“重要部分”的文章,这就是为什么需要基于注意力的机制的原因。我试图使用 LSTM 来查找人们的姓名格式。
例如,“Millie Bobby Brown”可以被视为 first_name middle_name last_name 格式,我将其表示为 0,但“Brown, Millie Bobby”是 last_name, first_name middle_name,我将其表示为 1。
LSTM 似乎对一种格式分类过度拟合。我怀疑这是因为它没有特别注意逗号,这是它可能是什么格式的一个关键特征。我试图理解为什么 LSTM 不适用于这种情况。这对我来说很有意义,因为 LSTM 更擅长识别序列到序列的生成,而总结和情感分析等事情通常需要注意。我怀疑 LSTM 无法推断格式的另一个原因是逗号可以放置在序列的不同索引中,因此序列越长,它在隐藏状态中的重要性可能会降低(不确定这是否会使感觉)。其他人有任何理论吗?我试图让我的研究人员相信纯 LSTM 不足以解决这个问题。