为什么物体检测算法在光学字符识别方面效果不佳?

人工智能 物体检测 物体识别 光学字符识别 ctc-损失
2021-11-16 12:59:45

OCR 仍然是一个非常困难的问题。我们没有通用的强大解决方案。我们使用 CTC 损失函数

联结时间分类的直观解释 使用 CTC进行数据科学序列建模
蒸馏

这很受欢迎,但仍然不够。

简单的解决方案是使用对象检测算法来识别每个字符并将它们组合成单词和句子。我们已经拥有非常强大的目标检测算法,例如 Faster-RCNN、YOLO、SSD。它们甚至可以检测到不完全可见的非常复杂的物体。但是我读到如果你用它们来识别字符,这些对象检测算法会很差。这很奇怪,因为这些都是非常简单的对象,只有几条线和几圈。主要是灰度图像。我知道我们使用对象检测算法来检测大图像上的文本区域。然后我们识别出这段文字。为什么我们不能只使用对象检测算法(流行神经网络的小版本)来识别单个字符?

为什么我们使用 CTC 或其他方法(除了它需要更多标签的事实)?为什么不进行物体检测?

1个回答

好问题!使用 Yolo 识别字符将是一个很好的尝试。这可能是因为页面上字符的密度——像 Yolo 这样的系统非常擅长检测小数量的对象,例如 2,3 或 10 个对象,但是当对象的数量为数百个时效果不佳你可能有 OCR。更好的方法可能是尝试适用于大量人群的人脸检测方法。