在深度神经网络的层/节点/神经元之间传递信息时,可以在乘法、加法和连接之间进行选择。
所以,假设我们有一个输入,它将数据传递到两个不同的层(和) 并且这些层具有作为输出的大小向量为了 和为了.
然后,我们有另一层,,我们想将信息传递给它和. 使用加法或串联有什么区别?我知道乘法用于加权要传达的信息。但是加法和连接呢?信息传达中的概念/模型结果是什么?
在深度神经网络的层/节点/神经元之间传递信息时,可以在乘法、加法和连接之间进行选择。
所以,假设我们有一个输入,它将数据传递到两个不同的层(和) 并且这些层具有作为输出的大小向量为了 和为了.
然后,我们有另一层,,我们想将信息传递给它和. 使用加法或串联有什么区别?我知道乘法用于加权要传达的信息。但是加法和连接呢?信息传达中的概念/模型结果是什么?
加法和连接是乘法的特殊情况,其中权重等于 0 或 1。因此,可以将使用加法和连接视为网络应该做什么的假设。
例如,在https://arxiv.org/abs/1606.03475中,图 1,我们使用连接来创建令牌嵌入因为我们希望激励高层考虑来自前向基于字符的 RNN 和后向基于字符的 RNN 的信息。