在 OCR 中,我应该如何处理椭圆对象侧面的扭曲文本?

人工智能 Python 图像处理 数据预处理 光学字符识别
2021-10-23 06:25:54

考虑一个包含一个罐子(或瓶子,或任何类似的椭圆形物体)的图像,其上到处都是文本。在下图中,我有很多瓶子,但您可以假设每张图像只包含一个这样的对象。

在此处输入图像描述

正如我们所见,在每个罐子中,文本可以从左向右流动,任何 OCR 系统都可能会错过罐子左右两侧的文本,因为它们没有与摄像机角度对齐。

那么,是否有任何解决方案,例如以某种方式进行预处理,以便我们可以阅读文本或将这个圆形物体变成一个直的?(如果有任何Python程序可以解决这个问题,可以分享给我吗?)

1个回答

有很多关于这方面的论文,但以下是一个好的开始:

在此处输入图像描述

您提到您不想做全景视图,但这有不止一个含义。如果我假设您的意思是您不想在拍摄多张照片时旋转罐子,或者您不想从不同角度拍摄多张照片,您可以尝试使用pericentric lens这将需要一些图像处理来进行展开。由于包裹更加严重,因此需要更高的分辨率。但优点是您将拥有完整圆柱表面的单个图像,并且不会遗漏任何特征或文本。

在此处输入图像描述