为什么人们在将查询键值投影到注意力后不使用非线性激活函数?

人工智能 神经网络 注意力 变压器
2021-11-14 04:45:40

为什么人们在将查询键值投影到注意力后不使用非线性激活函数?

似乎这样做会导致急需的非线性,否则,我们只是在进行线性变换。

这一观察适用于变压器、附加注意力等。

0个回答
没有发现任何回复~