我即将开始一个项目,目标是对 PDF 文档进行分类。我想知道是否有解决这个问题的最佳实践方法。
具体来说,我想知道以下两种方法中的一种是否通常表现更好:
- 使用 OCR 阅读器将文件转换为文本并在文本数据上训练分类器模型
- 将文件转换为图像并训练 CNN 分类器模型
我打算主要对不同的推荐和证书进行分类。由于这些文件中的大多数在类中共享相似的布局和文本,因此这些想法都应该可行。我想知道是否有人已经对此有经验,并且可以告诉我使用特定方法时的一些优点/缺点。
我非常感谢任何形式的帮助。
我即将开始一个项目,目标是对 PDF 文档进行分类。我想知道是否有解决这个问题的最佳实践方法。
具体来说,我想知道以下两种方法中的一种是否通常表现更好:
我打算主要对不同的推荐和证书进行分类。由于这些文件中的大多数在类中共享相似的布局和文本,因此这些想法都应该可行。我想知道是否有人已经对此有经验,并且可以告诉我使用特定方法时的一些优点/缺点。
我非常感谢任何形式的帮助。
这两种方法对不同的情况都有好处。
如果您认为文本中的依赖关系更能区分类,那么 NLP apporach。在这种情况下,图像方法需要非常复杂才能捕获此类信息。
另一方面,布局和位置可能会提供非常丰富的信息,并且它可能发生的情况不是以文本编码,只有图像方法可以捕捉到这些信息。
结论。也许考虑硬编码布局和位置特征并将它们传递给 NLP 模型。