为什么在一些计算机视觉问题中使用 RNN?

人工智能 深度学习 卷积神经网络 计算机视觉 循环神经网络 r-cnn
2021-10-22 04:33:01

我正在学习计算机视觉。当我完成各种计算机视觉项目的实现时,一些 OCR 问题使用了 GRU 或 LSTM,而有些则没有。我知道 RNN 仅用于输入数据是序列的问题,例如音频或文本。

因此,在kaggle 上的 MNIST 内核中,几乎没有内核使用 RNN,并且GitHub 上 IAM 数据集上的几乎每个 OCR 存储库都使用了 GRU 或 LSTM。直观地说,图像中的文字是一个序列,因此使用了 RNN。但是,MNIST 数据中的书面文本也是如此。那么,究竟什么时候需要在计算机视觉中使用 RNN(或 GRU 或 LSTM),什么时候不需要呢?

1个回答

在计算机视觉中的某些任务中,循环神经网络 (RNN) 可能很有用,因为主任务中有一些顺序子任务。

例如,在论文Long-Term Recurrent Convolutional Networks for Visual Recognition and Description中,作者研究了使用既是循环又是卷积的神经网络来解决某些也具有顺序组件/部分的计算机视觉任务,例如视频识别任务图像到句子生成问题视频叙述挑战

还有其他论文研究了卷积层和循环层的组合,例如Recurrent Convolutional Neural Networks: A Better Model of Biological Object Recognition,它也具有生物学动机。