前馈层在 Transformer 神经网络架构中的作用是什么?

机器算法验证 神经网络 自然语言 变压器
2022-04-01 07:30:24

Transformer架构中attention层之后的全连接层的作用和目的是什么?

2个回答

前馈层是在训练期间训练的权重,并且完全相同的矩阵应用于每个相应的令牌位置。

由于它的应用无需与其他令牌位置进行任何通信或推断,因此它是模型的高度可并行化部分。

作用和目的是处理一个注意力层的输出,以更好地适应下一个注意力层的输入。

考虑变压器的编码器部分。

如果没有前馈层,self-attention 只是简单地对值向量进行重新平均。

为了增加更多的模型功能,即输入向量的元素级非线性变换,到转换器,我们在转换器的编码器部分添加前馈层。