我如何获得用于可视化的 Twitter 数据集

数据挖掘 数据挖掘 聚类 数据清理 可视化
2022-03-10 18:00:56

我是新手。我想对 twitter 数据进行可视化:基于国家(在地图上)和时间变化(1 年中的每个月或每年)的热门趋势。有人可以告诉我在哪里可以得到 twitter 数据集,任何关于如何开始进行的建议都会非常有帮助。

谢谢

2个回答

(新鲜和完整)如今,Twitter 数据不容易获得,因为 Twitter 正在积极地将其货币化(通过 GNIP)。Kwak 等人仍然收集了一个大型 Twitter 图表。对于他们的“什么是 Twitter、社交网络或新闻媒体?” WWW'10公开可用,但至于推文,由于 Twitter 的投诉,大多数不错的数据集已从 Internet 上消失。仍然有少量在线可用的推文数据集(例如),但它们又小又陈旧。因此,我现在看到了两种获取推文的“合法”方法:1)使用新版本的 Twitter API 抓取 Twitter(这种方法的明显限制是您可以发送的请求数量的限制;这种方法不太可能如果您收集原始推文,则为您提供具有代表性的趋势图片,只是因为您没有足够的推文);2) 从 Twitter (GNIP) 购买数据,这将花费大量金钱。或者,您可以 3) 研究 Twitter API 以获取从中获取“摘要”信息的其他方法,而不是直接推文。例如,他们可能会提供一种方法来检索目前最流行的 10 个哈希标签,甚至可以按地理位置过滤——你不能对结果做太多的数据科学,

您可以从 NIST 获得推文集合(包含 1600 万条推文)。该集合用于微博上的临时搜索任务。 TREC 2011 微博合集