在图像的其他部分训练后如何预测部分图像?

数据挖掘 深度学习 神经网络 图像分类 卷积神经网络 计算机视觉
2021-09-17 06:22:07

我有身份证的图像(手动拍摄,因此大小不同),我需要提取其中的文本。

我使用 tesseract 来预测每个字母的边界框,并且在某种程度上是成功的,但有些字母没有边界。

http://i.imgur.com/USVKp6h.png

所以,我在所有图像中组合了大约 5000 个边界框。

我想训练它以预测剩余字母的边界框。

在预测边界框后,我将尝试将图像分类为字符。

这与我没有单独训练和测试数据的传统机器学习问题不同。

2个回答

当您似乎计划构建自己的字符分类器时,我假设您很乐意进行一些编程,但只是想避免繁重的图形内容。一种实用的方法是使用 tesseract 的边界框作为指导。向左和向右查看更多字符。知道行在哪里以及字符的高度和宽度是一个很好的基础。行的扩展为您提供了新候选框的上限和下限。要找到左右边界,您可以将像素投影到行的基线并查找黑色像素数量较少的位置。边界决定的第二个因素可以是预期宽度,它应该在“I”和“W”的宽度之间。

一个简单的解决方案可能是降低图像分辨率以隐藏细节,例如“模型”中的“O”中的小变形。一半的分辨率应该仍然足够。