使用 R 运行庞大的数据集

数据挖掘 大数据 r 优化 加工
2022-02-27 12:56:52

我正在尝试使用 R(例如使用神经网络和推荐系统)对一些大数据集(例如 400k 行与 400 列)进行一些分析。但是,处理数据花费的时间太长(具有巨大的矩阵,例如 400k 行与 400k 列)。有哪些免费/便宜的方法可以提高 R 性能?

我接受包或网络服务建议(欢迎其他选项)。

2个回答

尽管您的问题不是很具体,但我会尝试为您提供一些通用的解决方案。您可以在这里做几件事:

  • 从@Sidhha 提到的 Matrix 包中检查 sparseMatrix
  • 尝试使用 snowfall、Parallel等软件包并行运行您的模型。查看Cran 上的这个包列表,它可以帮助你在多核并行模式下运行你的模型。
  • 你也可以试试data.table包。它的速度非常惊人。

好读:

  1. 关于如何在 R 中处理大数据的 11 个技巧(以及 1 个坏双关语)
  2. 为什么 R 很慢以及如何提高其性能?

既然您提到您正在构建一个推荐系统,我相信您有一个正在处理的稀疏矩阵。从 Matrix 包中检查sparseMatrix 。这应该能够帮助您将大尺寸矩阵存储在内存中并训练您的模型。