数据挖掘 - 纽约时报的这篇专栏文章是从哪里获得他的 Google 搜索数据的？ - 吾爱随笔录 - 问答

纽约时报的这篇专栏文章是从哪里获得他的 Google 搜索数据的？

数据挖掘数据集搜索谷歌

2021-10-08 15:41:02

我希望这是一个适合 SO 的问题。

有问题的文章：http ://www.nytimes.com/2015/01/25/opinion/sunday/seth-stephens-davidowitz-searching-for-sex.html

据我所知，谷歌搜索中唯一公开的数据是通过他们的 Trends API 获得的。帮助页面指出

图表上的数字反映了针对特定字词的搜索次数，相对于一段时间内在 Google 上完成的搜索总数。它们不代表绝对搜索量数字，因为数据是标准化的，并以 0-100 的比例呈现。

然而，在文章中，作者报告（绝对）“平均每月搜索量”。来源声明如下：

所有每月搜索数字都是近似的，来自匿名和聚合网络活动。

资料来源：（作者）对谷歌数据的分析

那么，他是如何获得这种“匿名和聚合的网络活动”的呢？

2个回答

谷歌广告关键词。这具有绝对的搜索量。

很高兴收到作者的来信。正如他所说，这似乎可以通过 Google Adwords Keyword Planner 来实现。具体来说，“搜索新的关键字和广告组提示”选项。

我无法让谷歌真正生成他的列表，但我想这只是选择正确的种子词和设置的问题。当我直接搜索他的术语（“无性婚姻”、“不幸的婚姻”等）时，我得到了相同数量级的结果。

生成他的列表的另一种选择是搜索否定词词典（“婚姻”），然后进行一些排序和过滤。您可能可以通过 Google 的 API 自动执行此操作。

其它你可能感兴趣的问题

上一篇斯坦福 NER 的准确性下一篇Hive：如何计算组中一对数字列的 Kendall 相关系数？