在 Transformer 架构中,使用了多头注意力块。在可视化它们的输出时,可以看出每一层都学习了不同的单词关系。例如,第 5 层了解到“It”与“animal”更相关。
这里的问题是,当所有注意力层并行运行时,不同层的馈送有什么不同,以便他们学习不同的东西?
注意:这个答案不清楚 -为什么以及如何-bert-can-learn-different-attentions-for-each-head
在 Transformer 架构中,使用了多头注意力块。在可视化它们的输出时,可以看出每一层都学习了不同的单词关系。例如,第 5 层了解到“It”与“animal”更相关。
这里的问题是,当所有注意力层并行运行时,不同层的馈送有什么不同,以便他们学习不同的东西?
注意:这个答案不清楚 -为什么以及如何-bert-can-learn-different-attentions-for-each-head
所有磁头都输入完全相同的输入。每个头部学习不同的权重值,因为: