我正在尝试在具有 68 个物理内核的 Xeon Phi 节点上运行我的 matlab 脚本。使用parpool,我分配了 16 个内核来启用带有parfor循环的 SMD 并行化。脚本看起来像这样。
parpool('local',16)
parfor i=1:N
foo
end
当我在 Intel Xeon Phi 处理器(使用 MIC 架构)上运行脚本时,每个 MATLAB 任务仅使用 6.5% 的 CPU。当我在另一台装有 Intel Xeon 处理器(20 核)的机器上运行时没有问题。我怎样才能最大限度地利用我的计算资源?