今天的百亿亿级计算机

计算科学 显卡 百亿亿次
2021-12-25 15:49:55

现在有很多关于百亿亿次计算的讨论,以及我们是否能够在 2018 年、2019 年或其他任何时间实现这一目标。

我有什么可能是一个幼稚的问题。现在做这件事有什么问题?

具体来说,今天我们有AMD Radeon 295x2 它具有 11.5 TFLOPS 的计算能力。将 10 万个组合在一起将给我们 1.15 EFLOPS。
每张卡的功耗略低于 500 W,因此所有卡的总功耗为 50 MW(可能会有更多用于冷却等)。我只是猜测,但可以说所有其他东西(冷却和其他)都需要 20 兆瓦。假设电力价格为 60 美元/MWh,则每年略高于 3500 万美元单块显卡的价格为1500美元,这意味着硬件将花费1.5亿美元假设基础设施又花费了 5000 万美元

将此与当前最快的超级计算机天河二号进行比较。它的制造成本为 3.9 亿美元,使用 17.6 MW(24 MW 冷却),处理能力为 33.86 PFLOPS。

所以:

天河二号
3.9 亿美元
24 兆瓦
33.86 PFLOPS

AMD Radeon 295x2 x 100000
2 亿美元
70 兆瓦
1.15 EFLOPS

因此,以天河二号的成本,你可以建造一台速度提高 30 倍以上且运行成本覆盖 5 年以上的计算机。我猜想 5 年后超级计算机无论如何都会过时,所以你会建造另一台 :)

我在这里想念什么?

今天的超级计算机和这些 GPU 所做的浮点运算有区别吗?
AMD 无法生产/供应 100,000 台 295x2 的问题是什么?
是否还有其他一些实际问题,例如无法将 100,000 个单元连接成有用的东西,或者无法正确冷却它们?
AMD Radeon 会因某种原因不稳定或不可靠吗?

2个回答

我在这里想念什么?

您的提案中的大多数更广泛的问题都包含在实现百亿亿次计算的当前障碍是什么?.

我认为您所做的成本和功耗分析充其量只是一个下限:您已经计算了购买 100,000 个 GPU 所需的成本,并且您无法在没有插入任何东西的 GPU 上运行任何东西。

操作系统通常在 CPU 而不是 GPU 上运行,因此对于系统中的每个节点,除了一个(或多个)GPU 加速器之外,您还需要一个带有 CPU 和一些 RAM 的主板。此外,您没有提及互连、节点存储或整个集群的存储。所有这些东西都需要金钱和电力,这还不包括其他必要的组件(例如,机箱/机架、冷却风扇、水冷系统的热交换器)。

今天的超级计算机和这些 GPU 所做的浮点运算有区别吗?

据我所知,CPU 和 GPU 之间的主要区别在于,GPU 通常被构建为跨内核对不同数据执行相同操作的块,并且分支性能较差。除此之外,真的没有高层次的区别。今天的一些超级计算机使用 GPU(例如 Titan),所以我认为你开始查看低级细节并没有太大的不同。

AMD 无法生产/供应 100,000 台 295x2 的问题是什么?

我不信。

是否还有其他一些实际问题,例如无法将 100,000 个单元连接成有用的东西,或者无法正确冷却它们?

连接单元不是问题。如果您能找到电源和水(如有必要),冷却可能不是问题,但它会很昂贵。主要的实际问题是可靠性(见下文)。

AMD Radeon 会因某种原因不稳定或不可靠吗?

主要问题是,有这么多组件,所有组件都必须非常可靠,以避免在使用整台机器的计算期间节点出现故障(即避免硬错误)。

软错误(例如翻转一点)也成为一个非常大的问题;例如,用于将组件连接到主板的焊料中的铅偶尔会发出少量辐射,可能会在内存中翻转一点。有时,位翻转会影响算法,有时不会。从软错误中恢复是一个活跃的研究领域。

除了 Geoff 的优点:

单精度与双精度

Radeon 引用的性能是单精度,但 HPC 基准测试通常测量双精度(包括天河二号)。Radeon 的双精度性能很差,但如果您购买专注于双精度的显卡,对于计算受限的操作,预计性能/瓦特至少会受到 3 倍的影响。许多专注于双精度性能的卡也将提供 ECC 并承担更高的价格标签。

ECC 内存

由于 ECC 内存和增强的双精度性能等可靠性特性以及较小的市场,服务器级 GPU 的成本通常是其消费级同类产品的 3-5 倍。

峰值与实际性能

您引用 GPU 的理论峰值,但天河 2 的 HPL 基准性能仅达到其理论峰值的 61%。Radeon 上有限的图形内存可能会进一步限制性能。

虽然最终可能会使用 HPL 声明“exaflops”,但人们普遍认为 HPL 不能代表实际应用程序,由于内存带宽限制、有限数据局部性、整数指令/程序逻辑以及应用程序所需的不规则计算。HPCG和HPGMG努力试图创建更具代表性的基准。(我是 HPGMG 的开发人员。)