可以使用聚类来解析 pdf 文档以获取标题和标题吗?

人工智能 机器学习 自然语言处理 无监督学习 聚类
2021-10-19 07:00:34

我对 AI 有点陌生,我想使用某种聚类算法来解决问题:

我正在尝试解析 pdf 文档以获取标题和标题。我可以将 pdf 解析为 html,然后我可以获取有关文档行的一些信息。我已经确定了一些可用于识别标题的属性。

  • font-size (int):当然,标题的字体大小比普通文本大是很常见的
  • font-family (string): 标题可能是粗体,所以 font-family 可能不同
  • 左属性(int):标题也可能向右对齐,在普通段落中并不总是存在缩进
  • 奖励布尔值:我已经确定了一些可以组合以获得布尔值的属性。当布尔值设置为 true 时,它​​可以增加段落成为标题的机会。

当然,这些规则并不适用于所有标题。一些标题可能跟在其中一些但不是全部之后。也有可能一些“正常”段落遵循所有这些要点,但我所看到的是,总的来说,那些使标题与段落不同的规则。

有了这些信息,有没有办法做我正在寻找的东西?正如我所说,尽管我有 CS 和数学背景,但我还是 AI 新手。我认为聚类可能很有趣,因为我正在尝试创建 2 个聚类:标题和普通段落。

您认为哪种算法可能适用于这个用例。我应该看看集群之外的东西吗?

2个回答

是的,您可以使用聚类:将您的特征编码为特征向量并将其输入聚类算法(有关这些的全面描述,请参阅在数据中查找组)。您可以使用凝聚聚类,这将为您提供类似项目的组;也许不同级别的标题会聚集在一起。

或者,您可以尝试使用决策树,例如ID3,这也是合适的;不过,为此,您需要一些带注释的训练数据。但是,如果您的项目清楚地分开,您可能会使用少量数据来解决它。

在这里我试图回答,是的,你可以使用聚类来解析 pdf 文档。它类似于文本挖掘的工作方式(您可以从这里阅读)。

对于聚类方法,您可以根据自己的喜好使用 K-NN 方法、K-Means、凝聚层次聚类和其他方法。或者你也可以使用朴素贝叶斯。