数据挖掘 - 使用 Python 进行复杂的 HTML 数据提取 - 吾爱随笔录

数据挖掘 Python 刮

2022-03-08 18:32:17

有人知道用 python 从更复杂的网站结构中提取数据的方法吗？例如，我试图从ATP档案中的球员那里提取数据，但它太复杂了，我退出了。我认为他们正在从脚本中的某个数据库中提取数据，我怀疑即使我尝试过，我也无法获得它。

然后我开始使用一个名为的专用软件ParseHub，它可以在某种程度上直观地提取数据。这是一个相当不错的软件，但他们故意让它变慢只是为了让你买它，而且它特别不便宜。

2个回答

我最终使用 BeautifulSoup 来完成这项工作。最终的代码不是那么干净——因为我是一个新手——但它做了我想要的。你可以在这个repo中找到我到目前为止提取的源代码和数据集。您还可以查看我在我的网站上写的一篇文章：fanaro.com.br。

去过那里，做到了，仍然很难。对于复杂的 HTML 源，使用浅层特征分析被证明是最好的——所以像 Dragnet 这样的包是一个很好的起点。

我们的最终结果是一个流程链 (luigi)，我们可以在其中通过 HTML 源混合、匹配和重新排序以下文本提取工具：

关键是您计划在下一步中使用它做什么。对于某些事情，您可以只在文本中携带标签（布尔查找），而另一些则不能（站点之间的分类）。配置、测试、重复。

但是一刀切，这真的很难——我也不相信某些服务可以做的远远超出 Dragnet。

其它你可能感兴趣的问题