标签: python ssh mpi mpi4py archlinux-arm

我正在使用Arch Linux ARM中的mpi4py(1.3.1)和openmpi(1.8.6-1)构建一个MPI应用程序(在Raspberry Pi集群上,更具体一点)。我已经在3个节点(4个进程)上成功运行我的程序,当尝试添加新节点时,会发生以下情况:

Host key verification failed.
ORTE was unable to reliably start one or more daemons.
This usually is caused by:

* not finding the required libraries and/or binaries on
  one or more nodes. Please check your PATH and LD_LIBRARY_PATH
  settings, or configure OMPI with --enable-orterun-prefix-by-default

* lack of authority to execute on one or more specified nodes.
  Please verify your allocation and authorities.

* the inability to write startup files into /tmp (--tmpdir/orte_tmpdir_base).
Please check with your sys admin to determine the correct location to use.

*  compilation of the orted with dynamic libraries when static are required
  (e.g., on Cray). Please check your configure cmd line and consider using
  one of the contrib/platform definitions for your system type.

* an inability to create a connection back to mpirun due to a
  lack of common network interfaces and/or no route found between
  them. Please check network connectivity (including firewalls
  and network routing requirements).



这是我的主机文件 slots=2 slots=1
# slots=1 If uncommented and run with -np 5, it will raise the error slots=1


我在运行Fedora 22和OpenMPI 1.8的Linux x86_64迷你群集上遇到了同样的问题。我可以通过我的启动机器连接到我的5台机器中的任何一台,但是当我尝试使用3个或更多节点启动MPI时,它会给我一个身份验证错误。和你一样,看起来3是一个神奇的数字,事实证明它是。 OpenMPI使用基于树的启动,因此当您有两个以上的节点时,一个或多个中间节点正在执行ssh。就我而言,我没有使用无密码设置。我在启动机器上有一个SSH身份,我已经添加到我的钥匙链中。它能够启动前两个节点,因为我在我的密钥链中具有经过身份验证的身份。然后每个节点尝试启动更多,并且那些节点没有经过身份验证的密钥(我需要在每个节点上添加它)。

因此解决方案似乎正在转向无密码的SSH身份设置,但您显然必须小心如何执行此操作。我在启动机器上创建了一个特定的身份(密钥对)。我将密钥添加到我想要使用的节点上的授权密钥上(这很简单,因为它们都使用NFS,但如果需要,您可以手动分配密钥一次)。然后我修改了我的SSH配置,以便在尝试转到我的节点机器时使用无密码身份。我的〜/ .ssh / config看起来像:

Host node0
    HostName node0
    IdentityFile ~/.ssh/passwordless_rsa
Host node1
    HostName node1
    IdentityFile ~/.ssh/passwordless_rsa


