数据挖掘 - 指定光学字符识别的最佳方法是什么？ - 吾爱随笔录

我有一个非常容易理解的请求，即从扫描的发票（数字格式是图像，而不是 PDF）中提取信息（发票编号、发票数据、到期日、总数等），最好是用 Python。好消息是页面上或多或少肯定存在必要的信息，并且这些（类似正则表达式的）文本格式也往往是随之而来的。另一方面的缺点是发票的布局非常多样化。

我玩过以下可能的方法：

使用字符识别来提取纯文本，然后尝试与片段进行拼图。这种方法有一些相当大的问题：OCR 的质量（至少在 tesseract 库中实现的）相当平庸，输出毫无希望地是非结构化的（实际上是一大堆单词），很难拿出任何正则表达式或其他规则，即使是常规短语。
我的另一种方法是将某种深度学习应用于原始图像本身或文本堆，我们将繁重的工作留给网络，但在这种情况下，我不确定应该是什么输出？它是某种序列到序列的映射吗？

确实是非常不寻常的任务。