我即将从我的硕士毕业,并且已经了解了机器学习并使用它进行了研究项目。我想知道在使用大数据集(如 100 GB 或 TB)执行机器学习任务时行业中的最佳实践。感谢其他数据科学家是否可以分享他们的经验。以下是我的问题:
- 显然,非常大的数据集需要更长的时间来训练(可能是几天或几周)。很多时候我们需要训练各种模型(SVM、神经网络等)来比较并找到性能更好的模型。我怀疑,在行业项目中,我们希望尽快获得结果,但要产生最佳性能。有什么减少培训和测试时间的技巧吗?如果您建议对数据集进行子集化,我将有兴趣了解如何最好地对数据集进行子集化以涵盖数据集中的所有或大部分场景。
- 我们知道执行交叉验证会更好,因为它可以减少过度拟合。但是,交叉验证也需要时间来训练,使用交叉验证训练的模型可能无法直接实现(从 python sklearn 的经验说:我需要在交叉验证测试后再次使用数据集训练模型才能实现)。你通常在你的大数据项目中进行交叉验证还是通过训练测试拆分?
感谢反馈。