我正在处理一个具有非常大的数据集(略低于 10 亿个 obs)和大约 25 个预测变量的分类问题。
我在具有 128GB 内存的 VM 上在 R 中进行此分析,但在训练某些类型的模型时仍然遇到内存问题,更不用说必须等待很长时间才能完成运行。我主要使用逻辑回归和随机森林,并将我的训练数据集保持在整个样本的 10%。
我可以使用哪些解决方案(包、平台、技术)来解决这些内存和/或速度问题?我对 Python 相当熟悉,因此解决方案不必是特定于 R 的。
我正在处理一个具有非常大的数据集(略低于 10 亿个 obs)和大约 25 个预测变量的分类问题。
我在具有 128GB 内存的 VM 上在 R 中进行此分析,但在训练某些类型的模型时仍然遇到内存问题,更不用说必须等待很长时间才能完成运行。我主要使用逻辑回归和随机森林,并将我的训练数据集保持在整个样本的 10%。
我可以使用哪些解决方案(包、平台、技术)来解决这些内存和/或速度问题?我对 Python 相当熟悉,因此解决方案不必是特定于 R 的。