快速和/或内存高效的分类解决方案

数据挖掘 分类
2022-03-16 05:13:51

我正在处理一个具有非常大的数据集(略低于 10 亿个 obs)和大约 25 个预测变量的分类问题。

我在具有 128GB 内存的 VM 上在 R 中进行此分析,但在训练某些类型的模型时仍然遇到内存问题,更不用说必须等待很长时间才能完成运行。我主要使用逻辑回归和随机森林,并将我的训练数据集保持在整个样本的 10%。

我可以使用哪些解决方案(包、平台、技术)来解决这些内存和/或速度问题?我对 Python 相当熟悉,因此解决方案不必是特定于 R 的。

2个回答

LightGBM 是您正在寻找的答案。它使用的内存少于 xgboost、catboost 和最快的 GBM 库。它还具有比 sklearn 实现更快的 RF 模式。它适用于 R 和 Python。它还有一些参数来控制内存管理。

您可以查看此基准存储库。

您可以尝试一种 bagging 方法,通过在许多随机子样本上分别训练模型并对结果进行平均,这最终可能会改善您的预测。