公开可用的社交网络数据集/API

数据挖掘 开源的 数据集 爬行
2021-10-08 22:24:55

作为我们伟大的公开可用数据集列表的扩展,我想知道是否有任何公开可用的社交网络数据集/爬网 API 列表。如果与数据集/API 的链接一起添加可用数据的特征,那就太好了。此类信息应且不限于:

  • 社交网络的名称;
  • 它提供了什么样的用户信息(帖子、个人资料、友谊网络……);
  • 是否允许通过 API 抓取其内容(和速率:10/分钟,1k/月,...);
  • 它是否只是提供整个数据集的快照。

非常欢迎任何建议和进一步添加的特性。

4个回答

关于社交网络 API 的几句话。大约一年前,我为研究人员撰写了一篇关于流行社交网络 API 的评论。不幸的是,它是俄语的。这是一个摘要:

推特https://dev.twitter.com/docs/api/1.1

  • 几乎所有关于推文/文本和用户的数据都可用;
  • 缺乏社会人口数据;
  • 出色的流式 API:对实时文本处理很有用;
  • 很多编程语言的包装器;
  • 获取网络结构(连接)是可能的,但耗时(每 1 分钟 1 个请求)。

脸书https://developers.facebook.com/docs/reference/api/

  • 速率限制:大约每秒 1 个请求;
  • 有据可查,存在沙箱;
  • FQL(类 SQL)和 «regular Rest» 图形 API;
  • 存在友谊数据和社会人口特征;
  • 大量数据超出事件视界:只有朋友和朋友的朋友数据或多或少完整,随机用户几乎没有什么可以调查的;
  • 一些奇怪的 API 错误,看起来没人关心它(例如,某些功能通过 FQL 可用,但不能通过 Graph API 同义词)。

Instagram ( http://instagram.com/developer/ )

  • 速率限制:每小时 5000 个请求;
  • 实时 API(如 Twitter 的 Streaming API,但带有照片) - 与它的连接有点棘手:使用回调;
  • 缺乏社会人口数据;
  • 照片、过滤器数据可用;
  • 意想不到的缺陷(例如,可能只收集 150 条评论来发布/照片)。

Foursquare ( https://developer.foursquare.com/overview/ )

  • 速率限制:每小时 5000 个请求;
  • 地理社会数据王国 :)
  • 由于隐私问题,研究非常封闭。要收集签到数据,需要同时构建使用 4sq、bit.ly 和 twitter API 的复合解析器;
  • 再次:缺乏社会人口数据。

Google+ ( https://developers.google.com/+/api/latest/ )

  • 每秒大约 5 个请求(尝试验证);
  • 主要方法:活动和人;
  • 就像在 Facebook 上一样,随机用户的很多个人数据都被隐藏了;
  • 缺乏用户连接数据。

和非竞争性:我为俄罗斯读者审查了社交网络,这里排名第一的网络是vk.com它被翻译成多种语言,但仅在俄罗斯和其他独联体国家流行。API 文档链接:http: //vk.com/dev/在我看来,它是自制社交媒体研究的最佳选择。至少,在俄罗斯。这就是为什么:

  • 速率限制:每秒 3 个请求;
  • 可用的公共文本和媒体数据;
  • 可用的社会人口数据:对于随机用户的可用性水平约为 60-70%;
  • 用户之间的连接也可用:几乎所有随机用户的友谊数据都可用;
  • 一些特殊的方法:例如,有一种方法可以实时获取确切用户的在线/离线状态,并且可以为他的受众制定时间表。

它本身不是一个社交网络,但 Stackexchange 会定期发布他们的整个数据库转储:

您可以通过分析哪些用户互相提问和回答来提取一些社交信息。一件好事是,由于帖子被标记,您可以轻松分析子社区。

可以在斯坦福网络分析项目网站上找到公开可用的社交网络数据集的一个很好的列表:

SNAP 数据集

该网站包含互联网社交网络数据(Facebook、Twitter、Google Plus)、学术期刊的引文网络、来自亚马逊的联合采购网络和其他几种网络。它们有有向图、无向图和二分图,所有数据集都是可以以压缩形式下载的快照。

德国的一个例子:兴建一个类似于linkedin但仅限于德语国家的网站。

链接到它的开发者中心:https ://dev.xing.com/overview

提供对以下内容的访问:用户个人资料、用户之间的对话(仅限于用户本身)、招聘广告、联系人和联系人的联系人、来自网络的新闻和一些地理位置 api。

是的,它有一个 api,但我没有找到有关费率的信息。但在我看来,某些信息仅限于用户的同意。