我正在开展一个项目,该项目旨在使用 R 上的 twitteR 库从 Twitter 检索大型数据集(即几天前的推文数据)。存储推文有困难,因为我的机器只有 8 GB 内存. 甚至在我将其设置为检索一天之前,它就已经内存不足。有没有办法可以将推文直接存储到我的磁盘而不存储到 RAM 中?我没有使用流 API,因为我需要获取旧推文。
使用 Twitter 中的 R 存储大型数据集的最佳方式?
数据挖掘
r
数据集
2021-10-12 11:52:03
2个回答
找到一种方法让您的程序定期写入磁盘。在该数字很高之后,继续计算您抓取并保存的推文数量。我不写 R 但伪代码可能看起来像:
$tweets = get_tweets();
$count = 0;
$tweet_array = array();
for each ($tweets as $tweet) {
$tweet_array += $tweet;
$count++;
if ($count > 10000) {
append_to_file($tweet_array, 'file_name.txt');
clear_array($tweet_array);
}
}
去年秋天,我参与了一个 Twitter 数据项目,其中我们使用 Java 库从流媒体和其他 API 中提取推文数据。我们为Twitter API使用了Twitter4J(一个非官方的 Java 库) 。
推文数据被提取并直接写入我们硬盘上的文本文件。是的,我们确实增加了内存和堆。我相信 R studio 会有类似的选择。另一种方法是通过更多的重复次数引入更少的推文数据。
其它你可能感兴趣的问题