问题:我们有几个人在我们的实验室里做大量的机器学习工作,并且有更多的人要求使用我们的设备。我们有几台安装了 Ubuntu 的机器供人们共享。这会导致资源争用问题。PersonA 的所有代码/库都在 MachineA 上,或者有人在 MachineB 上等待,它有 4 个 GPU 而不是 1 个 GPU。
寻找: 我正在寻找一种使用这些机器创建集群的方法,使人们能够利用和共享资源。这将允许人们向外扩展并更好地利用我们已经拥有的资源(例如等待已经使用的特定机器)。这可以通过在他们的 IDE 中以交互方式运行代码或向集群提交作业(如某种类型的调度程序(slurm、pbs))来使用。此时,最终用户可以将其视为资源“池”。(例如,我们有 100 个 GPU,personA 请求 4 个 GPU,我们有 96 个 GPU 可供其他人请求)。还希望避免用户不得不对集群做任何事情。例如,UserA 只是请求 4GPU,他们不知道也不关心它在哪台机器上启动。
他们将 Tenserflow 和 mxnet 与 keras 和一些 theano 结合使用。
Tensorflow/mxnet 似乎有集群选项,但不认为这会处理调度问题?还是会?
如果您已经成功部署了某种类型的带有 GPU 节点的机器学习集群,我真的很想看看您使用的架构师、工具和软件。
如果这超出了本论坛的范围,请随时将其移至另一个频道。