问题的简短版本:我们有一个 Opteron 6272 集群,我们最近开始使用基于 FX 9370 的小型集群。问题是我们无法获得所需的速度,即按数量或流程进行缩放并不是最佳的。
全文:当我们在 Opteron 6272 上作为单个进程运行 CPMD 时,在单个节点上(因此没有任何并行组件)我们得到了 44 秒的执行时间。当在 FX 9370 上重复同样的事情时,完成工作的时间约为 27 秒。但是随着进程数量的增加(最大值=8),与 9370 相比,opteron 6272 的扩展非常好,并且在接近尾声时设法提高了 9370 的性能。
由于处理器的速度几乎是单进程性能的两倍(由单进程性能给出),我不应该期待并行性能的类似趋势吗?
MPICH2 是使用 ACML 编译的,并且来自 amd 的 x86_open64 编译器以避免任何瓶颈。英特尔编译器的性能也相同。
这是英特尔 MPI 基准测试结果的链接。http://pastebin.com/keACK8Qz