如何自动验证公文?

数据挖掘 机器学习 神经网络 监督学习 正则表达式
2021-09-22 22:30:23

我是机器学习和数据科学的新手。如果这个问题看起来很基本,我深表歉意。我有一个要求,我需要用相应的官方文件验证通过表格提交的信息。到目前为止,我的方法是使用谷歌视觉来提取文本并使用正则表达式来提取必要的字段并与表单信息进行比较。这并不总是可靠的,因为图像质量和视觉也会捕捉到噪音。

以前,我只想比较每个数据文件并在提取的文本中搜索它并提供确定性指标。

我和我的一位同事交谈,他建议使用一些监督学习算法来处理文档,以便它们自动提取关键字段。

我想问这种方法会比我目前的方法更简单。如果文档格式发生微小变化,我也担心我的方法的可扩展性。

我正在寻找与此相关的一些文章或书籍的链接,并回答为什么使用我自己的模型会比仅搜索文本中的每个单词更好。

编辑:数据可以想象成一张名片,其中包含人名、办公地址、联系电话和公司名称。这里的问题是不同的名片可以有不同的格式。此外,信息重复了两次:一次是英语,第二次是另一种语言。例如,NAME : JANE DOE 之后是 नाम : जेन डोए。我只需要英文名。格式的数量是恒定的,但很高。此外,在大多数情况下,Google Vision 不会一起读取该地址,并且使用正则表达式可能会变得过于复杂且因具体情况而异。我需要验证员工身份证,以证明他们正在为他们声称的公司工作。

1个回答

请参考以下与文档分析和识别中的机器学习相关的链接。

https://www.researchgate.net/publication/242506468_Machine_Learning_in_Document_Analysis_and_Recognition