注意力机制的数学解释

人工智能 神经网络 机器学习 深度学习 循环神经网络 注意力
2021-11-12 02:11:51

我试图理解为什么注意力模型与仅仅使用神经网络不同。本质上,权重的优化或使用门来保护和控制细胞状态(在循环网络中),最终应该导致网络专注于输入/源的某些部分。那么什么是注意力机制真正添加到网络中呢?

在编码器-解码器 RNN 的情况下,一个潜在的答案是:

这种方法与基本编码器-解码器的最重要区别在于它不会尝试将整个输入句子编码为单个固定长度的向量。相反,它将输入句子编码为向量序列,并在解码翻译时自适应地选择这些向量的子集。这使神经翻译模型不必将源句子的所有信息(无论其长度如何)压缩成一个固定长度的向量。我们证明这允许模型更好地处理长句子。
- 通过联合学习对齐和翻译的神经机器翻译

这是有道理的,论文说它对 NMT 效果更好。

先前的一项研究表明,将句子分解为短语可能会产生更好的结果:

在本文中,我们提出了一种解决此问题的方法,即自动将输入句子分割成可以被神经网络翻译模型轻松翻译的短语。一旦每个片段都被神经机器翻译模型独立翻译,翻译后的子句就会连接起来形成最终翻译。实证结果表明,长句的翻译质量显着提高。
- 使用自动分割克服神经机器翻译的句子长度诅咒

这为进一步研究导致注意力模型铺平了道路。

我还浏览了一篇关于Attention is notfully you need的文章,其中说了类似的话:

LSTM 必须学习在多个 RNN 迭代中以单个内部状态顺序将过去的值一起保留,而注意力可以在单个前向传递中的任何点回忆过去的序列值。

还有一个关于注意力机制家族的更精心策划的博客,深入了解了如何制定不同的方式来实现这一概念:注意力?注意力!

具体来说,我想知道如何为这个任务(前面提到的)或一般情况下制定注意力机制。详细的数学洞察力会有所帮助,可能在这些方面有所帮助:从数学上理解 NN 中的注意力

1个回答

有很多,但请记住,这些文章没有描述相同的方法。他们只是将注意力转移自动化作为其方法的一部分,因此必须检测转移需求并以提高速度、准确性、可靠性或它们的某种组合的方式执行。

没有一种占主导地位的注意力方法,而且很可能不会。事实上,最早在机器中普遍使用的注意力机制可能是机电火灾报警器。在数字系统中,它将是一个真空管电眼驱动入侵者警报,然后是晶体管微处理器板中的第一个硬件中断。

在撰写本文时,当代计算机系统中硬件中断的复杂性可能高于神经网络中的注意力机制,但这可能会改变。目前,注意力的字典定义是我们可以对人工网络中这些新方法施加的唯一限制。

在 AI 中开发注意力方法的分类会很有趣,因为这可能还没有完成。需要进行大量研究才能查看上述项目符号中的任何一项是否与问题中引用的两篇文章中的任何一篇相匹配。