数据挖掘 - 将 pdf 解析为 Json 或 Xml - 吾爱随笔录

数据挖掘神经网络解析

2022-02-20 01:47:09

我想创建一个神经网络，可以从 pdf 文档中获取一些特定的单词到 JSON 或 XML 中。例如，假设我有一个包含有关国家/地区的一些信息的 pdf，并且我想恢复国家/地区的名称和人口以获得如下信息：

<countries>
  <country>
    <name>
      France
    </name
    <population>
      70m
    </population
  </country>
.
.
.
</countries>

我应该建立一个神经网络并自己训练吗？如果是这样，您能否提供一个很好的教程，或者是否有一个我可以使用的已经训练过的教程？

1个回答

好吧，除非你的目标是建立一个神经网络来解决这个问题。这可以通过更简单的方式完成，例如在国家名称的情况下，您只需检查国家名称列表，等等。充其量一些 NLP 可以给你你想要的。神经网络解决方案可能有点矫枉过正。

如果神经网络是强制性的，那么我认为如果指定一些细节，你会得到更好的答案。您是否正在寻找一组固定的字段，pdf 包含什么样的文本内容等。

同样以防万一，如果您认为神经网络会给您一个 json 作为输出（以防万一）。情况不会如此。您必须将其从神经网络输出转换为 json，但转换的东西非常简单，所以我什至不应该谈论这个。

我知道我没有回答你的问题。但我希望你有一些方向。

其它你可能感兴趣的问题