数据挖掘 - 问题屏幕抓取 Google 数据 - 吾爱随笔录

我正在尝试使用rvest筛选来自谷歌的标题新闻项目并失败。

之前编写了一个实用程序来从 DS.SE 中筛选高级统计信息（不是我不得不说的用户信息！），它运行成功，我知道我的技术有效，但这没有产生任何结果。

我正在使用SelectorGadget查找所需的屏幕元素（“.r a”），下面的代码片段应该从谷歌页面读取“教育意愿”搜索词的标题。

我的代码（简化为基本代码）是：-

library (rvest)

url = "https://www.google.co.uk/#q=%22education+value%22"
url

index_html <- read_html( url )

headline_tmp <- index_html %>%
  html_nodes (".r a") %>%
  html_text()
headline_tmp

将输出作为

> library (rvest)
> 
> url = "https://www.google.co.uk/#q=%22education+value%22"
> url
[1] "https://www.google.co.uk/#q=%22education+value%22"
> 
> index_html <- read_html( url )
> 
> headline_tmp <- index_html %>%
+   html_nodes (".r a") %>%
+   html_text()
> headline_tmp
>character(0)

当我使用 stackexchange URL 运行时，针对不同 URL 进行适当修改的代码会给出一个数据向量。

我所做的关于谷歌停止屏幕抓取工具的阅读表明，它们只会阻止滥用它的人，并且通常会使用验证码或类似的方法来阻止。

关于解决方案的任何想法？