数据挖掘 - 在 300GB 数据上训练卷积网络 - 吾爱随笔录

数据挖掘大数据卷积神经网络麻木的

2022-02-27 17:08:42

我有一个约 300GB 的大型训练集（这是一个更大的数据集约 15TB 的子集）。

我正在尝试使用 Keras（Tensorflow 后端）训练一个 Convnet 来做类似于语义分割的事情。

我找不到任何有价值的资源来处理如此大的数据。对此类庞大数据的最佳实践的任何建议表示赞赏。

谢谢！

1个回答

您不需要一次将整个数据集加载到内存中。您需要在内存中的唯一数据是单个训练批次中的样本。使用该fit_generator方法而不是fit传入一个迭代器，该迭代器将样本从磁盘提供给您的模型，而不是一次加载所有这些数据。这是一个更多讨论这个的教程。

其它你可能感兴趣的问题