一个取消 SGE 上的另一个 qsub 语义?

计算科学 并行计算
2021-11-28 14:59:44

有没有办法为提交给 Sun Grid Engine 的 qsub 作业实现“一个取消另一个”语义 ( http://www.investopedia.com/terms/o/oco.asp )?也就是说,我提交了两个(或更多)工作,当其中一个运行时它会取消其他工作?

两个例子...

假设我可以在 N 行列上跑 4 小时或在 2N 行列上跑 2 小时。如果这两项工作都可以很快开始,我宁愿提前 2 小时通过运行更大的工作来获得答案。但是,如果我要额外等待 2 个以上的小时来运行 2N 等级的作业,那么先运行较小的作业并取消较大的作业是有意义的。

假设我可以将长时间运行的问题的一部分运行 8 或 16 小时。运行较长的批处理作业有一些启动成本摊销,因此 16 小时是稍微更好地使用 SU。但如果 8 小时的工作能早点开始,我宁愿现在就取得进展,也不愿等待 16 小时的窗口期。

可能完成这些事情的另一种方法是让我提交一个具有可接受节点数范围的单个作业(假设为“-pe 12way N,2N”)或挂壁时间(“-l h_rt 16-8:00:00 ”)。但是,我无法从 SGE 手册页中梳理出这一点。

0个回答
没有发现任何回复~