数据挖掘 - 使用 rsparkling -sparklyr 拆分大型数据集以进行预测建模 - 吾爱随笔录

我正在尝试在我的本地计算机上大约 3G 大小的数据集之上构建机器学习模型（GBM、RF、Staking）。但是，我只有4G内存（只有2G可用）。

我的问题是：将整个数据分成 20% 用于训练集、10% 用于验证集和 70% 用于测试部分是否合乎逻辑？我还将测试集拆分为 7 个具有相同分布的相等子集。我这样做是因为我无法在完整数据集上测试模型。

我仍然不相信这个解决方案，我不确定它是否足以获得一个强大的最终模型。我能做些什么？我是机器学习和大数据的新手。