书脊中的 OCR

数据挖掘 ocr
2022-03-04 02:21:57

我正在尝试在书脊上使用 OCR,作为一种对货架上的书籍进行编目的方式,而无需取出每一本并扫描条形码的乏味。

我需要一种方法来判断我是否在每本书的书脊上成功完成了 OCR,并从图像的该部分中提取文本。这样我就会知道我是否错过了一本书,然后在搜索以找出它是哪本书时会有所帮助 - 因为我不会在同一文本块中有多个书名/作者。

理想情况下,我会使用开源的东西,并且可以在视频上实时在浏览器端运行。有供应商为原生移动应用程序提供此功能,但对于 HTML5 来说可能过于雄心勃勃。所以我让用户点击一个按钮,然后抓取一个视频帧,将其上传到服务器,并使用 Google Vision 进行 OCR。在我的测试中,Vision 的 OCR 似乎比 Tesseract.js 更好,尽管我没有尝试过很多 Tesseract 输入参数。

我认为我需要的是可以识别图像中视觉上相似的矩形的东西(理想情况下是可以在浏览器中运行的 JS),以识别每个脊椎(最好将其叠加在视频源上)。使用 Vision,我可以将其与返回的注释的 boundingPoly 相关联,然后我可以确定我是否已经设法对每个脊椎进行 OCR。对于 Tesseract,相应的事情可能是使用感兴趣区域。

似乎应该可以做到这一点,因为大多数书脊的颜色相当统一,并且在书的边缘会有视觉边界。相邻的书通常会有不同的书脊颜色,这也应该有所帮助。

那么,有没有人有任何经验/建议/算法来识别图像中感兴趣的粗略矩形,然后在它们上使用 OCR?

0个回答
没有发现任何回复~