我正在使用 Google 的 OCR 从图像中提取文本,例如收据和发票。
有哪些用于理解文本的技术示例?例如,我想提取日期、企业名称、地址、总金额等。
在将此问题标记为“太宽泛”之前,如果有人可以指导我使用行业用于机器学习的正确算法集,那将会很棒。
我正在使用 Google 的 OCR 从图像中提取文本,例如收据和发票。
有哪些用于理解文本的技术示例?例如,我想提取日期、企业名称、地址、总金额等。
在将此问题标记为“太宽泛”之前,如果有人可以指导我使用行业用于机器学习的正确算法集,那将会很棒。
上学期我和我的团队一起做了一个关于 OCR 的项目。
注意:我假设您图片的数据集具有白色背景,上面带有黑色(或其他一些深色文本)。
这些是我们遵循的概述步骤:预处理包括灰度转换、降噪、二值化和倾斜检测。
下一步是分段。此过程从图像中提取单个字符。沿 y 轴拍摄的直方图将图像分成几条线。接下来是沿 x 轴的直方图,将它们划分为单词并进一步划分为字符。在这一步结束时,我们使用 Savgol 滤波器来平滑直方图的曲线。
下一步是特征提取
. 这是最重要的一步。你的代码的准确性取决于你的功能有多好。
我们使用了以下功能:
我们为我们的项目使用了三种不同的分类算法。它们是 KNN(K-最近邻)、人工神经网络(ANN)和额外树分类。他们的 F1 分数分别为 0.84、0.82 和 0.77。
对于训练,您需要找到数据集。许多 OCR 数据集可在线获得。确保你使用的是好的。
一个有趣的问题,我认为用于 OCR 的算法是多步骤的“逻辑回归”或“决策树”。
步骤可以
该数据库是使用众包的“验证码”项目构建的。