我有一个约 300GB 的大型训练集(这是一个更大的数据集约 15TB 的子集)。
我正在尝试使用 Keras(Tensorflow 后端)训练一个 Convnet 来做类似于语义分割的事情。
我找不到任何有价值的资源来处理如此大的数据。对此类庞大数据的最佳实践的任何建议表示赞赏。
谢谢!
我有一个约 300GB 的大型训练集(这是一个更大的数据集约 15TB 的子集)。
我正在尝试使用 Keras(Tensorflow 后端)训练一个 Convnet 来做类似于语义分割的事情。
我找不到任何有价值的资源来处理如此大的数据。对此类庞大数据的最佳实践的任何建议表示赞赏。
谢谢!
您不需要一次将整个数据集加载到内存中。您需要在内存中的唯一数据是单个训练批次中的样本。使用该fit_generator方法而不是fit传入一个迭代器,该迭代器将样本从磁盘提供给您的模型,而不是一次加载所有这些数据。这是一个更多讨论这个的教程。