使用 rsparkling -sparklyr 拆分大型数据集以进行预测建模

数据挖掘 预测建模 大数据 工作室 机器学习模型
2022-03-11 06:28:14

我正在尝试在我的本地计算机上大约 3G 大小的数据集之上构建机器学习模型(GBM、RF、Staking)。但是,我只有4G内存(只有2G可用)。

我的问题是:将整个数据分成 20% 用于训练集、10% 用于验证集和 70% 用于测试部分是否合乎逻辑?我还将测试集拆分为 7 个具有相同分布的相等子集。我这样做是因为我无法在完整数据集上测试模型。

我仍然不相信这个解决方案,我不确定它是否足以获得一个强大的最终模型。我能做些什么?我是机器学习和大数据的新手。

0个回答
没有发现任何回复~