如何在此网页上的 R 中进行网页抓取?

数据挖掘 r
2022-02-12 22:24:18

我对 R 很陌生,我正在尝试学习网络抓取。我基本上需要从这个网站提取文件。

理想情况下,数据需要结构化为三列:YEAR、DATE 和 INTRODUCTORYSTATEMENT_CONTENT。任何人都可以帮助编码吗?

1个回答

这应该可以通过 R 中的 rvest 实现。有两件事是可能的

  1. URL 模式是可预测的,https://www.ecb.europa.eu/press/pressconf/2012/html/index.en.html (将 2012 年替换为其他年份值)
  2. Html 页面为 INTRODUCTORYSTATEMENT_CONTENT 应用可预测的 CSS(例如: doc-title 和 doc-subtitle )

在此处输入图像描述

以下文章有示例:

https://towardsdatascience.com/web-scraping-tutorial-in-r-5e71fd107f32 https://www.datacamp.com/community/tutorials/r-web-scraping-rvest https://www.analyticsvidhya.com/博客/2017/03/beginners-guide-on-web-scraping-in-r-using-rvest-with-hands-on-knowledge/