将 pdf 解析为 Json 或 Xml

数据挖掘 神经网络 解析
2022-02-20 01:47:09

我想创建一个神经网络,可以从 pdf 文档中获取一些特定的单词到 JSON 或 XML 中。例如,假设我有一个包含有关国家/地区的一些信息的 pdf,并且我想恢复国家/地区的名称和人口以获得如下信息:

<countries>
  <country>
    <name>
      France
    </name
    <population>
      70m
    </population
  </country>
.
.
.
</countries>

我应该建立一个神经网络并自己训练吗?如果是这样,您能否提供一个很好的教程,或者是否有一个我可以使用的已经训练过的教程?

1个回答

好吧,除非你的目标是建立一个神经网络来解决这个问题。这可以通过更简单的方式完成,例如在国家名称的情况下,您只需检查国家名称列表,等等。充其量一些 NLP 可以给你你想要的。神经网络解决方案可能有点矫枉过正。

如果神经网络是强制性的,那么我认为如果指定一些细节,你会得到更好的答案。您是否正在寻找一组固定的字段,pdf 包含什么样的文本内容等。

同样以防万一,如果您认为神经网络会给您一个 json 作为输出(以防万一)。情况不会如此。您必须将其从神经网络输出转换为 json,但转换的东西非常简单,所以我什至不应该谈论这个。

我知道我没有回答你的问题。但我希望你有一些方向。