纽约时报的这篇专栏文章是从哪里获得他的 Google 搜索数据的?

数据挖掘 数据集 搜索 谷歌
2021-10-08 15:41:02

我希望这是一个适合 SO 的问题。

有问题的文章:http ://www.nytimes.com/2015/01/25/opinion/sunday/seth-stephens-davidowitz-searching-for-sex.html

据我所知,谷歌搜索中唯一公开的数据是通过他们的 Trends API 获得的。帮助页面指出

图表上的数字反映了针对特定字词的搜索次数,相对于一段时间内在 Google 上完成的搜索总数。它们不代表绝对搜索量数字,因为数据是标准化的,并以 0-100 的比例呈现。

然而,在文章中,作者报告(绝对)“平均每月搜索量”。来源声明如下:

所有每月搜索数字都是近似的,来自匿名和聚合网络活动。

资料来源:(作者)对谷歌数据的分析

那么,他是如何获得这种“匿名和聚合的网络活动”的呢?

2个回答

谷歌广告关键词。这具有绝对的搜索量。

很高兴收到作者的来信。正如他所说,这似乎可以通过 Google Adwords Keyword Planner 来实现。具体来说,“搜索新的关键字和广告组提示”选项。

我无法让谷歌真正生成他的列表,但我想这只是选择正确的种子词和设置的问题。当我直接搜索他的术语(“无性婚姻”、“不幸的婚姻”等)时,我得到了相同数量级的结果。

生成他的列表的另一种选择是搜索否定词词典(“婚姻”),然后进行一些排序和过滤。您可能可以通过 Google 的 API 自动执行此操作。