使用 Twitter 中的 R 存储大型数据集的最佳方式?

数据挖掘 r 数据集
2021-10-12 11:52:03

我正在开展一个项目,该项目旨在使用 R 上的 twitteR 库从 Twitter 检索大型数据集(即几天前的推文数据)。存储推文有困难,因为我的机器只有 8 GB 内存. 甚至在我将其设置为检索一天之前,它就已经内存不足。有没有办法可以将推文直接存储到我的磁盘而不存储到 RAM 中?我没有使用流 API,因为我需要获取旧推文。

2个回答

找到一种方法让您的程序定期写入磁盘。在该数字很高之后,继续计算您抓取并保存的推文数量。我不写 R 但伪代码可能看起来像:

$tweets = get_tweets(); $count = 0; $tweet_array = array(); for each ($tweets as $tweet) { $tweet_array += $tweet; $count++; if ($count > 10000) { append_to_file($tweet_array, 'file_name.txt'); clear_array($tweet_array); } }

去年秋天,我参与了一个 Twitter 数据项目,其中我们使用 Java 库从流媒体和其他 API 中提取推文数据。我们为Twitter API使用了Twitter4J(一个非官方的 Java 库)

推文数据被提取并直接写入我们硬盘上的文本文件。是的,我们确实增加了内存和堆。我相信 R studio 会有类似的选择。另一种方法是通过更多的重复次数引入更少的推文数据。