如何使用 Python 对包含字典中提到的某些关键字的所有文章进行网络抓取?

数据挖掘 Python 文本挖掘
2022-02-25 05:38:31

我想根据一些关键字搜索,例如[MBA,LBS,Harvard......等],提取自2010年以来在BBC发表的所有文章的标题和年份。我怎样才能使用python做到这一点?BeautifulSoup 获取一个链接并从链接中提取一些文本,而不是根据一些关键字自行搜索相关链接。

2个回答

如果你只想从 BBC 新闻中提取新闻文章,那么你可以使用他们的API。

他们提供不同语言的客户端库(包括python

引用文档:

您可以使用以下条件的任意组合搜索文章:

  • 关键字或词组例如:查找所有包含“Microsoft”一词的文章。

  • 发表日期例如:查找昨天发表的所有文章。

  • 源名称例如:查找“TechCrunch”的所有文章。
  • 源域名例如:查找在 nytimes.com 上发表的所有文章。
  • 语言例如:查找所有用英语写的文章。

我相信第一个就是你要找的。

您需要为此使用搜索引擎。官方的方式是在 Google 中为 API 调用付费。您也可以尝试抓取 Google 网页,但他们不喜欢它并采取措施阻止它。所以每秒只能调用一页(时间间隔可能不同)。第二步,如果谷歌没有提供足够的信息,你可以用文章刮掉一个页面。