在数据科学论坛上提问,因为这个论坛似乎非常适合与数据科学相关的问题:https ://stackoverflow.com/questions/55158554/how-transformer-is-bidirectional-machine-learning/55158766?noredirect=1#comment97066160_55158766
我来自 Google BERT 上下文(来自 Transformers 的双向编码器表示)。我经历了架构和代码。人们说这本质上是双向的。为了使其单向注意,需要应用一些掩码。
基本上,转换器将键、值和查询作为输入;使用编码器解码器架构;并注意这些键、查询和值。我的理解是我们需要明确地传递令牌,而不是让转换器自然地理解这一点。
有人可以解释一下是什么让变压器本质上是双向的
到目前为止收到的答案:
1.人们确认Transformer具有双向性质,而不是外部代码使其双向。
2. 我的疑问:我们正在将 QKV 嵌入传递给转换器,它使用 ScaledDotMatrix 注意力对其应用 N 层自我注意力。同样的事情也可以通过单向方法来完成。我可以知道我的理解中缺少什么部分。如果有人可以指出它是双向的代码,那将是一个很大的帮助。