为什么变形金刚需要位置编码?
数据挖掘
机器学习
深度学习
神经网络
nlp
变压器
2022-03-09 10:55:30
1个回答
考虑输入句子 - “我很好”。
在 RNN 中,我们将句子逐字输入网络。也就是说,首先将单词“I”作为输入传递,然后传递单词“am”,依此类推。我们逐字输入句子,以便我们的网络完全理解句子。
但是对于变压器网络,我们不遵循递归机制。因此,我们不是逐字输入句子,而是将句子中的所有单词并行输入到网络中。并行输入单词有助于减少训练时间,也有助于学习长期依赖。
我们将单词与转换器平行输入,单词顺序(单词在句子中的位置)很重要。所以,我们应该给transformer提供一些关于词序的信息,以便它能够理解句子。
如果我们将输入矩阵直接传递给转换器,它就无法理解词序。因此,我们需要添加一些指示词序(词的位置)的信息,而不是直接将输入矩阵馈送到转换器,以便我们的网络能够理解句子的含义。为此,我们引入了一种称为位置编码的技术。位置编码,顾名思义,是一种表示单词在句子中的位置(词序)的编码。
