首先,我对 ML 世界还很陌生。我对 ML 的不同用例进行了大量研究,包括处理文本和图像。
我正在尝试建立一个“管道”,可以从各种供应商发票中提取一些数据点:
- 发票编号
- 订单项(位于表格中)
- 对于每个行项目,我需要:数量和行金额
我的第一个想法是只使用经典的 OCR 解析工具,例如 DocParser(它基本上是一个基于模板的 OCR 解析工具,您可以在其中为每种不同类型的发票布局创建解析规则)。但是,我查看了我的供应商,我有很多不同的布局(定期添加新布局)。
我在想是否可以使用 ML 来完成这项任务?
我对管道的想法:
- 所有供应商发票都从 PDF 转换为图像文件 (.jpg),然后调整大小,使其具有相同的宽度和高度。
- 使用命名实体识别 (NER)训练自定义模型以提取发票编号
- 训练自定义计算机视觉模型以识别包含行项目(产品信息)的表
- 对于找到的每个表,将其提取为图像并训练另一个模型以识别每行所需的实体:数量和行数量
我不确定这是否是解决这个问题的好方法?最终以三个模型来提取我需要的信息是否有意义?有没有比首先在 PDF 文件中找到表格更简单的方法来检测数量和行数?
有没有人有类似过程的经验?