什么时候在云中构建一个集群比在我的实验室中构建一个用于 MD 模拟的集群更便宜?

计算科学 云计算 高性能计算
2021-12-21 20:57:22

Amazon EC2 计算集群在 3 年内每个物理 CPU 核心的成本约为800至1000美元(取决于工作周期)。在我们上一轮的硬件采购中,我的实验室以大约 300 美元的价格购买了价值 48 个核心的硬件,与亚马逊的集群非常相似。

我在这里错过了什么吗?是否存在在云中为高 CPU 任务(例如分子动力学模拟)构建集群具有经济意义的情况?还是我总是自己建造和照看这台该死的机器会更好?

(我应该提一下,我的实验室不支付我们服务器机房的电费(至少不是直接支付),但即使有这个好处,亚马逊似乎仍然非常昂贵)。

4个回答

在我看来,使用基于云的资源的主要优势是灵活性,即如果您的工作负载波动,您只需为需要的部分付费。

如果您的应用程序不是这种情况,即您知道您将有一个可量化且恒定的工作负载,那么您最好构建自己的集群。在云中,您为灵活性付费,如果您不需要灵活性,您将为不需要的东西付费。

如果您的工作量灵活但有些紧张并且依赖于某些硬件功能(请参阅 aeismail 的回答),您可能想尝试与大学中的其他人共享集群以分摊空闲周期。我的老大学运行着这样一个共享集群,它采用“股东模型”,在该模型中,每个组都可以保证获得与其硬件投资成正比的计算能力份额,并且任何人都可以使用空闲周期。唯一的困难是集中集群管理。

在使用 MD 模拟进行云计算时,有一些事情需要担心。例如,您需要担心运行这些作业的服务器场中处理器的物理布局。原因是,根据您的模拟规模和您正在运行的计算类型(例如,具有静电的系统),您可能严重依赖 FFT,并将电子推向一个巨大集群中的不同处理器可能成为总计算时间中非常耗时的部分。

此外,对于像 MD 这样的数据密集型的东西,您需要确保您有快速上传和下载到服务器的连接,以及对数据存储的合理限制。否则,大量节省的成本可能会因生产力损失和存储费用而被吸走。

值得一提的是,我们研究所刚刚为我们的本地集群购买了大约 240 个核心,每个核心的成本不到 500 欧元。该费用包括在我们校园四年的托管和管理以及服务。按年计算,这似乎便宜得离谱。我认为这可能是两全其美 - 本地访问,但专业维护,无需我们自己的 IT 团队。

我没有使用亚马逊 EC2 等云服务的第一手经验,但每个核心的实际成本可能比你提到的要高得多:它是初始购买、电力、冷却、建筑物空间、更换硬件的成本。加上管理成本:设置操作系统和集群服务、保持操作系统最新、排除队列故障等。如果所有这些的总和是初始购买成本的两倍,我一点也不感到惊讶。当然,您可以获得灵活性。

对我来说,这个模型是按比例缩小的:如果你有一个真正的大型集群(1000 个或更多核心),那么你可以摊销工作时间、维修和系统管理,因为有足够的事情来让专业人士忙碌。如果你有一个小集群,不值得让一个专职人员去做,那么你很可能让某人去做,而他的首要工作应该是做科学,在这种情况下,这个人的时间很少花在这样的行政工作上。这就是云服务器等按需服务大放异彩的地方。

作为对一些已经很出色的答案的补充,还有一个因素需要考虑:

  • 不计成本,你将如何支付?

我遇到了非常多的赠款,它们在任何情况下都不会支付硬件费用,但会支付 EC2 之类的计算时间。因此,在某些资金情况下,虽然您可能能够用非结构化资金或实验室启动包资助一个小型“测试平台”集群,但对于更大规模的项目,这可能是为您的计算成本提供资金的唯一方法。

考虑一下 NIH:

ADP/计算机服务:您在此处包含的服务应该是研究特定的计算机服务,例如在超级计算机上保留计算时间或获取专门的软件来帮助运行您的统计数据。本部分不应包括您的标准台式办公计算机、笔记本电脑或您所在机构提供的标准技术支持。这些类型的费用应该来自 F&A 费用。

虽然可以将集群机器降低到 5,000 美元以上的设备标题之下,并且您可以为此提出一个很好的论据,但我发现对此感到不安的评论者和对维护此类机器的持续成本犹豫不决的大学系统。

有些拨款甚至更加严格。我目前拥有的一项赠款如下:

资金也不得用于计算机硬件

如果集群基于 EC2 或其众多类似物之一,那么通过直接成本支付集群通常比实际购买硬件更容易,尤其是在您的机构对间接成本吝啬的情况下。对你来说可能不是这样,但对某些人来说是这样。