哪个 Amazon EC2 实例用于深度学习任务?

数据挖掘 深度学习 亚马逊-ml
2021-10-10 19:11:00

我发现亚马逊有一个专用的深度学习 AMI,预装了 TensorFlow、Keras 等(更不用说其他预构建的自定义 AMI)。我在几个基于 GPU 的实例上进行了典型工作,以查看性能。爱尔兰地区有五个这样的(也许其他地区存在更多,我不知道,这个差异有点令人困惑):

  • g2.2xlarge
  • g2.8xlarge
  • p2.xlarge
  • p2.8xlarge
  • p2.16xlarge

我的第一个问题是,这两组(g-something 和 p-something)有什么区别?两组都提到了“GPU 和 CPU”,但没有进一步了解深度学习的可用性。

我的第二个问题是我一直在 g2.2 和 g2.8 上运行我的工作,虽然任务处理需要很长时间才能运行,但 GPU 的工作负载相对较低(20-40%)。如果有空闲的处理器容量,为什么框架不增加工作量?是否有必要/可以参数化/设置任何东西来优化工作?

1个回答

在此处输入图像描述 在此处输入图像描述

我认为这里的差异和用例很好地指出了。就工作负载而言,有一些功能可以帮助您优化它。根据官方文档,您可以尝试:

  1. 为了坚持,

    sudo nvidia-smi -pm 1

  2. 禁用自动加速功能

    sudo nvidia-smi --auto-boost-default=0

  3. 将所有 GPU 时钟速度设置为其最大频率。

    须藤 nvidia-smi -ac 2505,875