从一组异构收据中提取姓名、日期和总数

数据挖掘 机器学习 神经网络 深度学习 nlp 命名实体识别
2022-02-16 18:14:10

所以,问题就是这样:我试图从扫描的收据中提取信息,像这样,

来自美国纽约的收据

有人告诉我,我会从 OCR 软件中获取文本数据,所以简而言之,我将直接使用图像的文本版本。

问题:

这里的问题是我必须在这里提取某些信息,即

  1. Location_ (例如:美国纽约)
  2. 完整的Total(在涉及到所有的折扣、小费等之后)(例如:1033.42)
  3. Currency_ (美元、英镑、欧元等)
  4. Date_ (更容易猜到)

我想提取位置信息的原因是,例如,如果这里没有明确提到货币,那么我可以从生成收据的位置推断。

挑战:

这里的挑战在于,类似的信息Total Due可能是类似Grand TotalTotal(仅)或语义上类似的东西Total,因为我不会只从同一家餐厅获得相同的收据。(餐厅可能在世界任何地方,但问题目前仅限于英语国家。)

另一个挑战是实际获取全部信息。我们很容易看出上面收据中的总数是 1033.42。但是我如何让软件知道这一点?我看到它的方式是 1033.42 接近总数(接近度)。但附近也可能有其他数字。

我尝试过但失败的地方:

有人告诉我从 NLTK(NER) 开始,但 NER 不适用于这里的所有内容。我可以通过它获取日期信息,但问题不仅仅是识别命名实体是什么,imo。

我认为可行的方法

在我看来,我认为我需要使用机器/深度学习模型,在该模型中机器能够理解语义上所说的任何内容与其Total附近的数字(很可能在右侧)之间的邻近匹配。

任何关于哪种模型在速度(首先是)和准确性方面效果最好的帮助将不胜感激。
我也将不胜感激有关在哪里可以找到可用于的任何数据集或现有模型的帮助Transfer Learning

1个回答

已经有一个 ML 引擎可以进行这些提取,这是一个通用的流程布局: 那里

这里是描述架构、特性、方法等的原始论文。阅读它,而不是我在这里复制它。云扫描