我正在尝试使用rvest筛选来自谷歌的标题新闻项目并失败。
之前编写了一个实用程序来从 DS.SE 中筛选高级统计信息(不是我不得不说的用户信息!),它运行成功,我知道我的技术有效,但这没有产生任何结果。
我正在使用SelectorGadget查找所需的屏幕元素(“.r a”),下面的代码片段应该从谷歌页面读取“教育意愿”搜索词的标题。
我的代码(简化为基本代码)是:-
library (rvest)
url = "https://www.google.co.uk/#q=%22education+value%22"
url
index_html <- read_html( url )
headline_tmp <- index_html %>%
html_nodes (".r a") %>%
html_text()
headline_tmp
将输出作为
> library (rvest)
>
> url = "https://www.google.co.uk/#q=%22education+value%22"
> url
[1] "https://www.google.co.uk/#q=%22education+value%22"
>
> index_html <- read_html( url )
>
> headline_tmp <- index_html %>%
+ html_nodes (".r a") %>%
+ html_text()
> headline_tmp
>character(0)
当我使用 stackexchange URL 运行时,针对不同 URL 进行适当修改的代码会给出一个数据向量。
我所做的关于谷歌停止屏幕抓取工具的阅读表明,它们只会阻止滥用它的人,并且通常会使用验证码或类似的方法来阻止。
关于解决方案的任何想法?