有人知道用 python 从更复杂的网站结构中提取数据的方法吗?例如,我试图从ATP档案中的球员那里提取数据,但它太复杂了,我退出了。我认为他们正在从脚本中的某个数据库中提取数据,我怀疑即使我尝试过,我也无法获得它。
然后我开始使用一个名为 的专用软件ParseHub,它可以在某种程度上直观地提取数据。这是一个相当不错的软件,但他们故意让它变慢只是为了让你买它,而且它特别不便宜。
有人知道用 python 从更复杂的网站结构中提取数据的方法吗?例如,我试图从ATP档案中的球员那里提取数据,但它太复杂了,我退出了。我认为他们正在从脚本中的某个数据库中提取数据,我怀疑即使我尝试过,我也无法获得它。
然后我开始使用一个名为 的专用软件ParseHub,它可以在某种程度上直观地提取数据。这是一个相当不错的软件,但他们故意让它变慢只是为了让你买它,而且它特别不便宜。
我最终使用 BeautifulSoup 来完成这项工作。最终的代码不是那么干净——因为我是一个新手——但它做了我想要的。你可以在这个repo中找到我到目前为止提取的源代码和数据集。您还可以查看我在我的网站上写的一篇文章:fanaro.com.br。
去过那里,做到了,仍然很难。对于复杂的 HTML 源,使用浅层特征分析被证明是最好的——所以像 Dragnet 这样的包是一个很好的起点。
我们的最终结果是一个流程链 (luigi),我们可以在其中通过 HTML 源混合、匹配和重新排序以下文本提取工具:
关键是您计划在下一步中使用它做什么。对于某些事情,您可以只在文本中携带标签(布尔查找),而另一些则不能(站点之间的分类)。配置、测试、重复。
但是一刀切,这真的很难——我也不相信某些服务可以做的远远超出 Dragnet。