使用 ML 从 PDF 文件中提取信息(发票编号,表格中的行项目)

数据挖掘 机器学习 Python 命名实体识别
2022-02-19 18:36:37

首先,我对 ML 世界还很陌生。我对 ML 的不同用例进行了大量研究,包括处理文本和图像。

我正在尝试建立一个“管道”,可以从各种供应商发票中提取一些数据点:

  1. 发票编号
  2. 订单项(位于表格中)
    1. 对于每个行项目,我需要:数量行金额

​​​

我的第一个想法是只使用经典的 OCR 解析工具,例如 DocParser(它基本上是一个基于模板的 OCR 解析工具,您可以在其中为每种不同类型的发票布局创建解析规则)。但是,我查看了我的供应商,我有很多不同的布局(定期添加新布局)。

我在想是否可以使用 ML 来完成这项任务?

我对管道的想法:

  1. 所有供应商发票都从 PDF 转换为图像文件 (.jpg),然后调整大小,使其具有相同的宽度和高度。
  2. 使用命名实体识别 (NER)训练自定义模型以提取发票编号
  3. 训练自定义计算机视觉模型以识别包含行项目(产品信息)的表
    1. 对于找到的每个表,将其提取为图像并训练另一个模型以识别每行所需的实体:数量行数量

我不确定这是否是解决这个问题的好方法?最终以三个模型来提取我需要的信息是否有意义?有没有比首先在 PDF 文件中找到表格更简单的方法来检测数量行数?

有没有人有类似过程的经验?

0个回答
没有发现任何回复~