Nvidia K20X 与 GeForce Titan 的 GPGPU 加速

计算科学 表现 显卡 效率
2021-11-27 05:19:01

我试图了解这两种用于学术计算的显卡之间的区别,特别是对于 DGEMM 组件。

如果我们查看原始统计数据,两者都具有相同的 GK110 芯片,几乎在每个类别中都有可比的统计数据,而且我相信它们具有相同的核心架构。在任何折扣之前,K20X 的成本大约是 Titan 的 4 倍。从效率的角度来看,使用 Titan 而不是 K20X 似乎更有意义。

我很难理解这里的区别,任何人都可以说明情况吗?

作为说明,我正在考虑为机架服务器购买这些卡,并基本上全速运行直到它们死掉;但是,我并不认为为单个作业使用多个 GPU 的效率特别重要。

3个回答

有一些差异,但它们不一定在硬件或规格上。请注意,这是我从论坛或新闻发布中获得的所有信息,因此请谨慎对待。

首先是“可扩展性和可靠性”(来源)。K20 设计用于集群系统并以 24/7 全天候全倾斜运行。Titan 更多地是为游戏设计的,因此它会在这个占空比下运行,但如果以这种方式使用,它可能会遇到长期的使用寿命问题。

驱动程序也不同,但我不确定主要差异。卡设计重点的差异可能导致特斯拉卡在这方面的性能提升相对较小。

“一些特斯拉独有的功能包括:

  • 用于 InfiniBand 性能的 NVIDIA GPUDirect RDMA
  • 用于 MPI 的 Hyper-Q(GeForce GTX TITAN 支持用于 CUDA 流的 Hyper-Q)
  • 所有内部和外部寄存器和存储器的 ECC 保护
  • 支持 GPU 和集群管理的工具,例如 Bright Computing、Ganglia。”(来源

这表明主要区别在于它们的可扩展性。如果您希望在办公室的台式机上运行,​​那么很难与 K20 上的 Titan 争论价格差异。如果您需要多个 K20 的额外性能,请为自己找一个 HPC 中心并花时间使用他们的服务器。

编辑:

在对 ECC 进行了更多研究之后,我正在更新这个答案,以指出将它安装在 K20 上而不是 Titan 上的含义。以下信息是对此处找到的信息的解释。

ECC 是对 DRAM 和 GPU 寄存器的错误检查。软错误是指错误地传输/存储位。电路越快越靠近,软错​​误的概率就越高。如果您正在求解一组耦合 ODE 或求解线性系统,单个数字偏移一位可能会以不可重现的方式显着改变结果。CPU 中的大多数标准 RAM 和高速缓存都使用 ECC 对这些错误进行错误检查。

另一方面,GPU 通常没有 ECC,即使它们的内存总线比 CPU 上的快得多。这是因为如果屏幕上的一个像素在一帧中偏离了一点,节目的质量并没有降低。这些错误也不会传播。因此,跳过此功能可以节省大量芯片空间(和成本)。这种额外的复杂性可能会导致特斯拉生产线的大部分额外成本。

在我看来,差异似乎主要是市场细分。如果您是一名科学家,那么 NVidia 希望您担心您的论文会被拒绝,因为您使用的 GPGPU 没有像 K20X 那样多的纠错 RAM。同样,如果您是一家公司,那么您可能需要支付 4 倍,如果这意味着您不太可能因为怀疑您的计算没有尽可能地纠正错误而被起诉。个人游戏玩家或爱好者 GPGPU'ers 被出售 Titan 是因为他们的钱少,而且他们更难以这些方式说服他们。

这实际上取决于您运行的应用程序。GPUGRID.net 在没有开启 ECC 的机器上运行,一切都很好。结果与在任何其他平台上一样好。Acellera 还销售带有 GeForce 卡的硬件,只有极少数情况下 GPU 会出现故障。GeForce 就是您所需要的。