我对 AI 有点陌生,我想使用某种聚类算法来解决问题:
我正在尝试解析 pdf 文档以获取标题和标题。我可以将 pdf 解析为 html,然后我可以获取有关文档行的一些信息。我已经确定了一些可用于识别标题的属性。
- font-size (int):当然,标题的字体大小比普通文本大是很常见的
- font-family (string): 标题可能是粗体,所以 font-family 可能不同
- 左属性(int):标题也可能向右对齐,在普通段落中并不总是存在缩进
- 奖励布尔值:我已经确定了一些可以组合以获得布尔值的属性。当布尔值设置为 true 时,它可以增加段落成为标题的机会。
当然,这些规则并不适用于所有标题。一些标题可能跟在其中一些但不是全部之后。也有可能一些“正常”段落遵循所有这些要点,但我所看到的是,总的来说,那些使标题与段落不同的规则。
有了这些信息,有没有办法做我正在寻找的东西?正如我所说,尽管我有 CS 和数学背景,但我还是 AI 新手。我认为聚类可能很有趣,因为我正在尝试创建 2 个聚类:标题和普通段落。
您认为哪种算法可能适用于这个用例。我应该看看集群之外的东西吗?