OCR 仍然是一个非常困难的问题。我们没有通用的强大解决方案。我们使用 CTC 损失函数
联结时间分类的直观解释 使用 CTC进行数据科学序列建模
蒸馏
这很受欢迎,但仍然不够。
简单的解决方案是使用对象检测算法来识别每个字符并将它们组合成单词和句子。我们已经拥有非常强大的目标检测算法,例如 Faster-RCNN、YOLO、SSD。它们甚至可以检测到不完全可见的非常复杂的物体。但是我读到如果你用它们来识别字符,这些对象检测算法会很差。这很奇怪,因为这些都是非常简单的对象,只有几条线和几圈。主要是灰度图像。我知道我们使用对象检测算法来检测大图像上的文本区域。然后我们识别出这段文字。为什么我们不能只使用对象检测算法(流行神经网络的小版本)来识别单个字符?
为什么我们使用 CTC 或其他方法(除了它需要更多标签的事实)?为什么不进行物体检测?