人工智能 - 可以使用聚类来解析 pdf 文档以获取标题和标题吗？ - 吾爱随笔录 - 问答

可以使用聚类来解析 pdf 文档以获取标题和标题吗？

人工智能机器学习自然语言处理无监督学习聚类

2021-10-19 07:00:34

我对 AI 有点陌生，我想使用某种聚类算法来解决问题：

我正在尝试解析 pdf 文档以获取标题和标题。我可以将 pdf 解析为 html，然后我可以获取有关文档行的一些信息。我已经确定了一些可用于识别标题的属性。

font-size (int)：当然，标题的字体大小比普通文本大是很常见的
font-family (string): 标题可能是粗体，所以 font-family 可能不同
左属性（int）：标题也可能向右对齐，在普通段落中并不总是存在缩进
奖励布尔值：我已经确定了一些可以组合以获得布尔值的属性。当布尔值设置为 true 时，它可以增加段落成为标题的机会。

当然，这些规则并不适用于所有标题。一些标题可能跟在其中一些但不是全部之后。也有可能一些“正常”段落遵循所有这些要点，但我所看到的是，总的来说，那些使标题与段落不同的规则。

有了这些信息，有没有办法做我正在寻找的东西？正如我所说，尽管我有 CS 和数学背景，但我还是 AI 新手。我认为聚类可能很有趣，因为我正在尝试创建 2 个聚类：标题和普通段落。

您认为哪种算法可能适用于这个用例。我应该看看集群之外的东西吗？

2个回答

是的，您可以使用聚类：将您的特征编码为特征向量并将其输入聚类算法（有关这些的全面描述，请参阅在数据中查找组）。您可以使用凝聚聚类，这将为您提供类似项目的组；也许不同级别的标题会聚集在一起。

或者，您可以尝试使用决策树，例如ID3，这也是合适的；不过，为此，您需要一些带注释的训练数据。但是，如果您的项目清楚地分开，您可能会使用少量数据来解决它。

在这里我试图回答，是的，你可以使用聚类来解析 pdf 文档。它类似于文本挖掘的工作方式（您可以从这里阅读）。

对于聚类方法，您可以根据自己的喜好使用 K-NN 方法、K-Means、凝聚层次聚类和其他方法。或者你也可以使用朴素贝叶斯。

其它你可能感兴趣的问题

上一篇强化学习中的情节和非情节领域是什么？下一篇为什么我需要一个初始的任意策略来实现值迭代算法