我正在关注这篇博文,其中列举了各种类型的关注。
它提到了基于内容的注意力,其中对齐评分功能用于th 编码器隐藏状态相对于上下文向量是余弦距离:
它还提到了点积注意力:
对我来说,似乎这些只是一个因素不同。如果我们修复这样我们只关注解码器中的一个时间步,那么该因素仅取决于. 具体来说,它.
所以我们可以说:“基于内容的注意力对点积注意力的唯一调整是,它在应用 softmax 之前将每个对齐分数与相应编码器隐藏状态的范数成反比。”
做出如此细微调整的动机是什么?后果是什么?
跟进问题:
更重要的是,在Attention is All you Need中,他们引入了缩放点积,其中它们除以一个常数因子(编码器隐藏向量大小的平方根),以避免 softmax 中的梯度消失。他们有什么理由不只使用余弦距离?