计算科学 - 在 FX 9370 处理器上优化 MPICH2 - 吾爱随笔录

问题的简短版本：我们有一个 Opteron 6272 集群，我们最近开始使用基于 FX 9370 的小型集群。问题是我们无法获得所需的速度，即按数量或流程进行缩放并不是最佳的。

全文：当我们在 Opteron 6272 上作为单个进程运行 CPMD 时，在单个节点上（因此没有任何并行组件）我们得到了 44 秒的执行时间。当在 FX 9370 上重复同样的事情时，完成工作的时间约为 27 秒。但是随着进程数量的增加（最大值=8），与 9370 相比，opteron 6272 的扩展非常好，并且在接近尾声时设法提高了 9370 的性能。

由于处理器的速度几乎是单进程性能的两倍（由单进程性能给出），我不应该期待并行性能的类似趋势吗？

MPICH2 是使用 ACML 编译的，并且来自 amd 的 x86_open64 编译器以避免任何瓶颈。英特尔编译器的性能也相同。

这是英特尔 MPI 基准测试结果的链接。http://pastebin.com/keACK8Qz