问题屏幕抓取 Google 数据

数据挖掘 r
2022-02-21 04:10:10

我正在尝试使用rvest筛选来自谷歌的标题新闻项目并失败。

之前编写了一个实用程序来从 DS.SE 中筛选高级统计信息(不是我不得不说的用户信息!),它运行成功,我知道我的技术有效,但这没有产生任何结果。

我正在使用SelectorGadget查找所需的屏幕元素(“.r a”),下面的代码片段应该从谷歌页面读取“教育意愿”搜索词的标题。

我的代码(简化为基本代码)是:-

library (rvest)

url = "https://www.google.co.uk/#q=%22education+value%22"
url

index_html <- read_html( url )

headline_tmp <- index_html %>%
  html_nodes (".r a") %>%
  html_text()
headline_tmp 

将输出作为

> library (rvest)
> 
> url = "https://www.google.co.uk/#q=%22education+value%22"
> url
[1] "https://www.google.co.uk/#q=%22education+value%22"
> 
> index_html <- read_html( url )
> 
> headline_tmp <- index_html %>%
+   html_nodes (".r a") %>%
+   html_text()
> headline_tmp
>character(0) 

当我使用 stackexchange URL 运行时,针对不同 URL 进行适当修改的代码会给出一个数据向量。

我所做的关于谷歌停止屏幕抓取工具的阅读表明,它们只会阻止滥用它的人,并且通常会使用验证码或类似的方法来阻止。

关于解决方案的任何想法?

0个回答
没有发现任何回复~