从图像中提取文本 - OCR
数据挖掘
深度学习
数据挖掘
美国有线电视新闻网
图像识别
ocr
2022-02-15 10:20:05
1个回答
我已经将 tesseract 用于类似的任务。我可以给你一些建议。您可以选择最适合您的。
通过查找参数值出现的确切位置来提取参数值。
- 如果参数总是出现在同一个地方,您可以找到这些坐标并从那里提取参数。您可以通过获取 Tesseract 在执行 OCR 时生成的 TSV 输出来获取位置信息。
查看 tesseract 为每个文本生成的行/块/段落编号
- 由于值和参数对由行或单独的部分分隔,我认为 tesseract 在为您的参数提供不同的行号或块/段号方面会做得很合理。如果您使用
create_tsv=1我相信的配置从 Tesseract 获取 TSV 输出,则可以获取此信息。
- 由于值和参数对由行或单独的部分分隔,我认为 tesseract 在为您的参数提供不同的行号或块/段号方面会做得很合理。如果您使用
使用正则表达式匹配参数
- 您的参数似乎非常一致(即分类开/关或数字)。在这种情况下,您可以做的是,在读取 tesseract 的输出时,匹配值前面的描述。例如,当您遇到
AHU ON/OFF STATUS文本时,立即查找单词onor 或off。
- 您的参数似乎非常一致(即分类开/关或数字)。在这种情况下,您可以做的是,在读取 tesseract 的输出时,匹配值前面的描述。例如,当您遇到
您可以结合使用这些来使结果更加准确。希望这些建议有所帮助。
