拆分包含一批扫描文档的 pdf

数据挖掘 机器学习 分类 图像分割
2022-02-17 12:26:56

我的问题主要是:是否有任何关于将包含一批扫描文档(例如银行对账单)的 pdf 拆分为单个文档的 ML 研究论文?

我已经搜索过这个,但我没有找到任何相关的研究论文或互联网上普遍提到的任何应用程序。

我主要对这些论文/应用程序的特征工程感兴趣,但总的来说也对整个方法感兴趣。

2个回答

Esposito、Ferilli、Basile 和 Mauro 的“用于数字文档处理的机器学习:从布局分析到元数据提取”详细介绍了如何创建用于解析数字文档(包括 pdf)的自定义系统。它提出了一个通用的过程来学习文档中的任何结构。

在大量使用 pdf 文件(如银行对帐单)和您想看到的 3 个主要会议/研讨会是 ICDAR、DocEng 和 NeuralIPS 的 Document Intelligence 研讨会之后。

你要找的论文不在这里的机会真的很低,因为这 3 个可能是最大的文件研究场所。我已经经历了几个月了,我找不到你在找什么的提及。

根据页面上的文本将页面分类为结束页面的简单模型可能有效,但不能保证。

这些主题是机器学习与文档研究的重要组成部分。