我训练了一个模型,冻结成一个PB(protocol buffer)文件和一些变量的目录,总大小大约31M。我们使用 GPU 卡部署它并遵循这个答案并将其设置per_process_gpu_memory_fraction
为一个非常小的数字以使内存约为 40M。该程序执行得非常好,但是当我们检查 GPU 使用情况时nvidia-smi
,显示内存使用量约为 500M。
那么我的问题是如何证明这个差距是合理的?我们怎样才能减少它?我们可以做一些类似量化的事情来减少 500M 吗?我们想将它部署到边缘设备中,所以 500M 太大了。