我最近开始担任数据科学家,并且正在使用 Python 开始一个网络抓取和 NLP 项目。这个想法是创建一个搜索公司客户公共信息的程序。这些信息可以来自各种来源:年度报告、损益表、文章……我将不得不处理两种格式:HTML 和 PDF。现在,我将专注于检索公司的收入。经过一个月的研究和测试,我意识到了一些事情: - NLP 技术太慢了,无法用于年报 项目的第一步将如下:
搜索年度报告并抓取 HTML 代码:到目前为止,我设法获得了所有的 google 结果,并且我正在使用 Beautifulsoup 来获取 HTML 代码。但是我不能完全得到公司的收入,因为每个网站都有自己的 HTML 结构。我首先决定专注于提取表格(目标是找到公司的损益表),但我意识到 HTML 表格经常用于布局(即使这是一个不好的做法)。我不能依赖 css 选择器,因为我需要让它尽可能通用。我怎样才能实现它?