如何在 CNN 中添加一些数据输入?

人工智能 卷积神经网络 自动编码器 火炬 图像分割
2021-11-06 12:16:26

我遇到了这个问题,我试图使用编码器-解码器 CNN 将输入图像中的像素分类,类似于分割。“感兴趣”的像素通常位于输入图像的右上角,但是输入图像太大,我必须将它们分割成块,这样做,每个输入块都会丢失其“整个图片的哪个区域”它来自”信息。

我正在使用 pytorch,我想手动将此补丁位置信息添加到输入中,但随后它会很复杂,这对我来说确实有意义,因为它不是图像的一部分。

我是新手,不确定我是否认为整个事情正确,我应该如何手动将此信息正确地添加到输入中,或者如果有一些关键字我可以做一些研究,以便让 CNN 占据位置考虑到?谢谢你。

1个回答

如果您的兴趣是位置信息,请对其进行编码!

这可能包括学习每个位置的嵌入并在模型中利用它。您也可以使用硬编码方法而不是学习它(有点像在变压器论文中添加正弦曲线Attention is All You Need

编码 2D 位置信息的论文示例:Attention Augmented Convolutional Networks