我正在学习计算机视觉。当我完成各种计算机视觉项目的实现时,一些 OCR 问题使用了 GRU 或 LSTM,而有些则没有。我知道 RNN 仅用于输入数据是序列的问题,例如音频或文本。
因此,在kaggle 上的 MNIST 内核中,几乎没有内核使用 RNN,并且GitHub 上 IAM 数据集上的几乎每个 OCR 存储库都使用了 GRU 或 LSTM。直观地说,图像中的文字是一个序列,因此使用了 RNN。但是,MNIST 数据中的书面文本也是如此。那么,究竟什么时候需要在计算机视觉中使用 RNN(或 GRU 或 LSTM),什么时候不需要呢?