我们实验室的 UNIX 集群上有 Maui 和 Torque。现在,所有工作都由 FIFO 提供。我们想实施更公平的政策,但我没有成功实施。在线文档不是很清楚,我尝试实施的任何操作都没有任何效果(我已经更改了配置文件,然后重新启动了 Maui)。有什么建议?
在 Maui/Torque 上实施公平调度策略
计算科学
PBS
2021-12-08 05:29:39
2个回答
因此,正如 aeismail 所建议的那样,“公平”在旁观者眼中,一般来说,任何不让用户工作在他们认为应该运行时运行的政策都会让他们觉得明显“不公平”,并会产生令人讨厌的电子邮件给系统管理员。所以不要太着迷于调整参数;制定一个清晰、简单的政策,并随着时间的推移在获得数据时慢慢调整,而不是被动地回应投诉。
无论如何,就在毛伊岛实现事物而言,我建议从fairshare开始。它允许您在某个时间窗口内为组设置目标资源量(我们在这里使用 2 周 - 选择一个时间长度,根据您的使用模式,峰值趋于平均),并且随着它们接近该使用量,他们的优先级开始下降。请注意,如果有空闲周期,他们仍然可以计算,但是在那段时间内没有使用太多的人将优先考虑他们的工作。
请注意,这里的部分艺术在于正确定义用户组,并决定“公平”的原始目标资源量。
合理排队政策的特点是什么?我认为它们包括:
它们限制了单个作业的总长度。在共享机器上,作业应该有有限的运行时间。与由大学、国家实验室或其他此类组织运营的大型共享资源(通常为 1-4 天)相比,分配给小组集群(4-5 天)的分配可能更慷慨。
当作业在队列中时,它们限制了单个用户可以访问的机器数量。没有什么比一个认为“你所有的核心都属于我”的机器猪更糟糕的了[原文如此]。因此,通常要求没有单个用户可以访问超过机器的四分之一或三分之一,只要队列中有其他作业。
不过,也许最重要的是:
- 队列考虑了最近访问的资源量。不过,这是最难的部分,因为它可能是最难跟踪的。然而,这里的基本思想是,连续一个月在机器上运行四分之一的人的优先级应该大大低于几个月内第一次返回开始新工作的人。同样重要的是要注意最近:您在六个月或一年前所做的事情与您当前的使用情况无关。因此,对此应该有一些“半衰期”:可能是几周,也可能是几个月。
找到适当的平衡需要一些时间和调整,但这些规则是我见过的大多数政策的核心,这些政策并未导致抱怨和咬牙切齿。
其它你可能感兴趣的问题