我试图理解为什么注意力模型与仅仅使用神经网络不同。本质上,权重的优化或使用门来保护和控制细胞状态(在循环网络中),最终应该导致网络专注于输入/源的某些部分。那么什么是注意力机制真正添加到网络中呢?
在编码器-解码器 RNN 的情况下,一个潜在的答案是:
这是有道理的,论文说它对 NMT 效果更好。
先前的一项研究表明,将句子分解为短语可能会产生更好的结果:
这为进一步研究导致注意力模型铺平了道路。
我还浏览了一篇关于Attention is notfully you need的文章,其中说了类似的话:
LSTM 必须学习在多个 RNN 迭代中以单个内部状态顺序将过去的值一起保留,而注意力可以在单个前向传递中的任何点回忆过去的序列值。
还有一个关于注意力机制家族的更精心策划的博客,深入了解了如何制定不同的方式来实现这一概念:注意力?注意力!
具体来说,我想知道如何为这个任务(前面提到的)或一般情况下制定注意力机制。详细的数学洞察力会有所帮助,可能在这些方面有所帮助:从数学上理解 NN 中的注意力