Transformer架构中attention层之后的全连接层的作用和目的是什么?
前馈层在 Transformer 神经网络架构中的作用是什么?
机器算法验证
神经网络
自然语言
变压器
2022-04-01 07:30:24
2个回答
前馈层是在训练期间训练的权重,并且完全相同的矩阵应用于每个相应的令牌位置。
由于它的应用无需与其他令牌位置进行任何通信或推断,因此它是模型的高度可并行化部分。
作用和目的是处理一个注意力层的输出,以更好地适应下一个注意力层的输入。
考虑变压器的编码器部分。
如果没有前馈层,self-attention 只是简单地对值向量进行重新平均。
为了增加更多的模型功能,即输入向量的元素级非线性变换,到转换器,我们在转换器的编码器部分添加前馈层。
其它你可能感兴趣的问题