在 300GB 数据上训练卷积网络

数据挖掘 大数据 卷积神经网络 麻木的
2022-02-27 17:08:42

我有一个约 300GB 的大型训练集(这是一个更大的数据集约 15TB 的子集)。

我正在尝试使用 Keras(Tensorflow 后端)训练一个 Convnet 来做类似于语义分割的事情。

我找不到任何有价值的资源来处理如此大的数据。对此类庞大数据的最佳实践的任何建议表示赞赏。

谢谢!

1个回答

您不需要一次将整个数据集加载到内存中。您需要在内存中的唯一数据是单个训练批次中的样本。使用该fit_generator方法而不是fit传入一个迭代器,该迭代器将样本从磁盘提供给您的模型,而不是一次加载所有这些数据。这是一个更多讨论这个的教程。