数据挖掘 - 使用 Twitter 中的 R 存储大型数据集的最佳方式？ - 吾爱随笔录

使用 Twitter 中的 R 存储大型数据集的最佳方式？

数据挖掘 r 数据集

2021-10-12 11:52:03

我正在开展一个项目，该项目旨在使用 R 上的 twitteR 库从 Twitter 检索大型数据集（即几天前的推文数据）。存储推文有困难，因为我的机器只有 8 GB 内存. 甚至在我将其设置为检索一天之前，它就已经内存不足。有没有办法可以将推文直接存储到我的磁盘而不存储到 RAM 中？我没有使用流 API，因为我需要获取旧推文。

2个回答

找到一种方法让您的程序定期写入磁盘。在该数字很高之后，继续计算您抓取并保存的推文数量。我不写 R 但伪代码可能看起来像：

$tweets = get_tweets(); $count = 0; $tweet_array = array(); for each ($tweets as $tweet) { $tweet_array += $tweet; $count++; if ($count > 10000) { append_to_file($tweet_array, 'file_name.txt'); clear_array($tweet_array); } }

去年秋天，我参与了一个 Twitter 数据项目，其中我们使用 Java 库从流媒体和其他 API 中提取推文数据。我们为Twitter API使用了Twitter4J（一个非官方的 Java 库）。

推文数据被提取并直接写入我们硬盘上的文本文件。是的，我们确实增加了内存和堆。我相信 R studio 会有类似的选择。另一种方法是通过更多的重复次数引入更少的推文数据。

其它你可能感兴趣的问题

上一篇KL 散度返回无穷大下一篇对数据中的用户名进行匿名化的最佳做法是什么？