我正在尝试在我的本地计算机上大约 3G 大小的数据集之上构建机器学习模型(GBM、RF、Staking)。但是,我只有4G内存(只有2G可用)。
我的问题是:将整个数据分成 20% 用于训练集、10% 用于验证集和 70% 用于测试部分是否合乎逻辑?我还将测试集拆分为 7 个具有相同分布的相等子集。我这样做是因为我无法在完整数据集上测试模型。
我仍然不相信这个解决方案,我不确定它是否足以获得一个强大的最终模型。我能做些什么?我是机器学习和大数据的新手。
我正在尝试在我的本地计算机上大约 3G 大小的数据集之上构建机器学习模型(GBM、RF、Staking)。但是,我只有4G内存(只有2G可用)。
我的问题是:将整个数据分成 20% 用于训练集、10% 用于验证集和 70% 用于测试部分是否合乎逻辑?我还将测试集拆分为 7 个具有相同分布的相等子集。我这样做是因为我无法在完整数据集上测试模型。
我仍然不相信这个解决方案,我不确定它是否足以获得一个强大的最终模型。我能做些什么?我是机器学习和大数据的新手。