分类 pdf 文件 - 图像方法与文本方法

数据挖掘 分类 多类分类
2022-01-26 12:05:45

我即将开始一个项目,目标是对 PDF 文档进行分类。我想知道是否有解决这个问题的最佳实践方法。

具体来说,我想知道以下两种方法中的一种是否通常表现更好:

  1. 使用 OCR 阅读器将文件转换为文本并在文本数据上训练分类器模型
  2. 将文件转换为图像并训练 CNN 分类器模型

我打算主要对不同的推荐和证书进行分类。由于这些文件中的大多数在类中共享相似的布局和文本,因此这些想法​​都应该可行。我想知道是否有人已经对此有经验,并且可以告诉我使用特定方法时的一些优点/缺点。

我非常感谢任何形式的帮助。

1个回答

这两种方法对不同的情况都有好处。

如果您认为文本中的依赖关系更能区分类,那么 NLP apporach。在这种情况下,图像方法需要非常复杂才能捕获此类信息。

另一方面,布局和位置可能会提供非常丰富的信息,并且它可能发生的情况不是以文本编码,只有图像方法可以捕捉到这些信息。

结论。也许考虑硬编码布局和位置特征并将它们传递给 NLP 模型。