数据挖掘 - 分类 pdf 文件 - 图像方法与文本方法 - 吾爱随笔录 - 问答

分类 pdf 文件 - 图像方法与文本方法

数据挖掘分类多类分类

2022-01-26 12:05:45

我即将开始一个项目，目标是对 PDF 文档进行分类。我想知道是否有解决这个问题的最佳实践方法。

具体来说，我想知道以下两种方法中的一种是否通常表现更好：

使用 OCR 阅读器将文件转换为文本并在文本数据上训练分类器模型
将文件转换为图像并训练 CNN 分类器模型

我打算主要对不同的推荐和证书进行分类。由于这些文件中的大多数在类中共享相似的布局和文本，因此这些想法都应该可行。我想知道是否有人已经对此有经验，并且可以告诉我使用特定方法时的一些优点/缺点。

我非常感谢任何形式的帮助。

1个回答

这两种方法对不同的情况都有好处。

如果您认为文本中的依赖关系更能区分类，那么 NLP apporach。在这种情况下，图像方法需要非常复杂才能捕获此类信息。

另一方面，布局和位置可能会提供非常丰富的信息，并且它可能发生的情况不是以文本编码，只有图像方法可以捕捉到这些信息。

结论。也许考虑硬编码布局和位置特征并将它们传递给 NLP 模型。

其它你可能感兴趣的问题

上一篇sklearn 随机森林回归器中的“feature_importance_”值是如何计算的？下一篇如何获得销售优化问题的最佳特征组合？