数据挖掘 - 机器学习资源管理架构 - 吾爱随笔录

问题：我们有几个人在我们的实验室里做大量的机器学习工作，并且有更多的人要求使用我们的设备。我们有几台安装了 Ubuntu 的机器供人们共享。这会导致资源争用问题。PersonA 的所有代码/库都在 MachineA 上，或者有人在 MachineB 上等待，它有 4 个 GPU 而不是 1 个 GPU。

寻找： 我正在寻找一种使用这些机器创建集群的方法，使人们能够利用和共享资源。这将允许人们向外扩展并更好地利用我们已经拥有的资源（例如等待已经使用的特定机器）。这可以通过在他们的 IDE 中以交互方式运行代码或向集群提交作业（如某种类型的调度程序（slurm、pbs））来使用。此时，最终用户可以将其视为资源“池”。（例如，我们有 100 个 GPU，personA 请求 4 个 GPU，我们有 96 个 GPU 可供其他人请求）。还希望避免用户不得不对集群做任何事情。例如，UserA 只是请求 4GPU，他们不知道也不关心它在哪台机器上启动。

他们将 Tenserflow 和 mxnet 与 keras 和一些 theano 结合使用。

Tensorflow/mxnet 似乎有集群选项，但不认为这会处理调度问题？还是会？

如果您已经成功部署了某种类型的带有 GPU 节点的机器学习集群，我真的很想看看您使用的架构师、工具和软件。

如果这超出了本论坛的范围，请随时将其移至另一个频道。