吾爱随笔录
博客
问答
专栏
题库
搜索
登录
注册
为什么人们在将查询键值投影到注意力后不使用非线性激活函数?
人工智能
神经网络
注意力
变压器
2021-11-14 04:45:40
为什么人们在将查询键值投影到注意力后不使用非线性激活函数?
似乎这样做会导致急需的非线性,否则,我们只是在进行线性变换。
这一观察适用于变压器、附加注意力等。
0个回答
没有发现任何回复~
其它你可能感兴趣的问题
上一篇
Adagrad的直观解释,它的目的和它的公式
下一篇
使用贝叶斯网络的主要好处是什么?