使用两个节点时,程序无法完成

时间:2015-08-03 18:20:32

标签: mpi cluster-computing distributed intel-mkl mpiexec

当我在一台计算机上运行我的程序时,有4个进程,它几乎会立即终止。当我尝试在两台计算机的集群中运行它时(集群已经过检查并且没问题),它只是没有完成!

我很久以前在群集中做过一次运行,我记得它比一台PC上的运行速度慢,但它会终止!

这是我的run.sh:

#!/bin/bash

start=100
end=100
for ((i = $start; i <= $end; ++i )) ; 
do
        mpiexec -f machinefile -n 4 ./test ../../l_matrices/Lmat_755.mtx 1 755 755 $i $i 2 2 0 0
done

我确实检查了每个节点中是否产生了两个进程。

这是我的机器文件:

hostname1.gr:2
hostname2.gr:2

发生了什么事?

1 个答案:

答案 0 :(得分:1)

(假设脚本是正确的并且开始和结束变量值是有意的,这将不会有任何意义,因为mpiexec将执行具有相同参数的同一文件的两个副本)

检查路径 - 您使用了相对路径,这可能会导致出现问题,因为登录后,默认目录中的执行通常是您的主目录。