数据挖掘 - 书脊中的 OCR - 吾爱随笔录

我正在尝试在书脊上使用 OCR，作为一种对货架上的书籍进行编目的方式，而无需取出每一本并扫描条形码的乏味。

我需要一种方法来判断我是否在每本书的书脊上成功完成了 OCR，并从图像的该部分中提取文本。这样我就会知道我是否错过了一本书，然后在搜索以找出它是哪本书时会有所帮助 - 因为我不会在同一文本块中有多个书名/作者。

理想情况下，我会使用开源的东西，并且可以在视频上实时在浏览器端运行。有供应商为原生移动应用程序提供此功能，但对于 HTML5 来说可能过于雄心勃勃。所以我让用户点击一个按钮，然后抓取一个视频帧，将其上传到服务器，并使用 Google Vision 进行 OCR。在我的测试中，Vision 的 OCR 似乎比 Tesseract.js 更好，尽管我没有尝试过很多 Tesseract 输入参数。

我认为我需要的是可以识别图像中视觉上相似的矩形的东西（理想情况下是可以在浏览器中运行的 JS），以识别每个脊椎（最好将其叠加在视频源上）。使用 Vision，我可以将其与返回的注释的 boundingPoly 相关联，然后我可以确定我是否已经设法对每个脊椎进行 OCR。对于 Tesseract，相应的事情可能是使用感兴趣区域。

似乎应该可以做到这一点，因为大多数书脊的颜色相当统一，并且在书的边缘会有视觉边界。相邻的书通常会有不同的书脊颜色，这也应该有所帮助。

那么，有没有人有任何经验/建议/算法来识别图像中感兴趣的粗略矩形，然后在它们上使用 OCR？