机器算法验证 - 预测 DNN 训练的 CPU 和 GPU 内存需求 - 吾爱随笔录

预测 DNN 训练的 CPU 和 GPU 内存需求

机器算法验证深度学习

2022-03-11 09:37:10

假设我有一些深度学习模型架构，以及选定的小批量大小。我如何从这些训练该模型的预期内存需求中得出？

例如，考虑一个（非循环）模型，其输入维度为 1000，4 个维度为 100 的全连接隐藏层，以及一个维度为 10 的附加输出层。小批量大小为 256 个示例。如何确定训练过程在 CPU 和 GPU 上的近似内存 (RAM) 占用量？如果有什么不同，我们假设该模型是在带有 TensorFlow 的 GPU 上训练的（因此使用 cuDNN）。

2个回答

@ik_vision 的答案描述了如何估计存储权重所需的内存空间，但您还需要存储中间激活，特别是对于处理 3D 数据的卷积网络，这是所需内存的主要部分。

分析您的示例：

输入需要 1000 个元素
在第 1-4 层之后，您有 100 个元素，总共 400 个
1. 在最后一层之后，你有 10 个元素

对于 1 个样本，前向传递总共需要 1410 个元素。除了输入之外，您还需要关于它们中的每一个的梯度信息用于后向传递，即多 410 个，每个样本总共 1820 个元素。乘以批量大小得到 465 920。

我说的是“元素”，因为每个元素所需的大小取决于使用的数据类型。对于单精度float32，它是 4B，存储数据 blob 所需的总内存约为 1.8MB。

我看到两个选项：

网络从磁盘加载
网络是动态创建的

在这两种情况下，GPU 中的内存大小都需要乘以 Batch 大小，因为每个样本都会复制大部分网络。

如果从磁盘加载，经验法则：如果 DNN 在磁盘上占用 X MB，则对于批量大小 1，网络在 GPU 内存中将是 2 倍。

网络是为批量大小 1 动态创建的：计算参数并乘以 4 个字节（float32 位）：手动计算参数的数量：fc1：1000x100（权重）+ 100（偏差） fc2：100x100（权重）+ 100（偏差） fc3：100x100（权重）+ 100（偏差） fc4：100x100（权重）+ 100（偏差）输出：100x10（权重）+ 10（偏差）

使用 Keras 计算 Parameter 的数量：model.count_params()

其它你可能感兴趣的问题

上一篇一般来说，推理比预测更难吗？下一篇贝叶斯方法本质上是顺序的吗？