我想根据一些关键字搜索,例如[MBA,LBS,Harvard......等],提取自2010年以来在BBC发表的所有文章的标题和年份。我怎样才能使用python做到这一点?BeautifulSoup 获取一个链接并从链接中提取一些文本,而不是根据一些关键字自行搜索相关链接。
如何使用 Python 对包含字典中提到的某些关键字的所有文章进行网络抓取?
数据挖掘
Python
文本挖掘
2022-02-25 05:38:31
2个回答
您需要为此使用搜索引擎。官方的方式是在 Google 中为 API 调用付费。您也可以尝试抓取 Google 网页,但他们不喜欢它并采取措施阻止它。所以每秒只能调用一页(时间间隔可能不同)。第二步,如果谷歌没有提供足够的信息,你可以用文章刮掉一个页面。