数据挖掘 - 从图像中提取文本 - OCR - 吾爱随笔录

数据挖掘深度学习数据挖掘美国有线电视新闻网图像识别 ocr

2022-02-15 10:20:05

这是我第一次使用 OCR。我有一张图片，想从图片中提取数据。我的图像如下所示：

我想提取参数和针对它们的值。有人可以指导我如何做到这一点吗？我知道如果图像包含一些简单的文本，我们可以使用 tesseract 和 PIL 库从图像中提取文本。在有多个参数的情况下该怎么办？

1个回答

我已经将 tesseract 用于类似的任务。我可以给你一些建议。您可以选择最适合您的。

通过查找参数值出现的确切位置来提取参数值。
- 如果参数总是出现在同一个地方，您可以找到这些坐标并从那里提取参数。您可以通过获取 Tesseract 在执行 OCR 时生成的 TSV 输出来获取位置信息。
查看 tesseract 为每个文本生成的行/块/段落编号
- 由于值和参数对由行或单独的部分分隔，我认为 tesseract 在为您的参数提供不同的行号或块/段号方面会做得很合理。如果您使用create_tsv=1我相信的配置从 Tesseract 获取 TSV 输出，则可以获取此信息。
使用正则表达式匹配参数
- 您的参数似乎非常一致（即分类开/关或数字）。在这种情况下，您可以做的是，在读取 tesseract 的输出时，匹配值前面的描述。例如，当您遇到AHU ON/OFF STATUS文本时，立即查找单词onor 或off。

您可以结合使用这些来使结果更加准确。希望这些建议有所帮助。

其它你可能感兴趣的问题