Ich habe 6 Computer (je 4 Kerne und identische Hardware) mit statischen IP-Adressen und muss die rechnergestützte Chemie-Software NAMD parallel mit OpenMPI ausführen. Also ich
- installiertes SSH und OpenMPI (auf Mint 18)
- Platzieren Sie die ausführbare Datei in / bin auf allen Computern
- Einrichten von passwortlosem SSH (Ich kann auf alle 4 Slave-Computer ohne Passwort vom Master-Computer aus zugreifen)
Es funktioniert jedoch auf 3 Computern und für andere gibt es
mpiuser@master ~/Desktop/apoa1-16 $ mpiexec -np 16 --hostfile mpi-hostfile namd2 apoa1.namd > apoa1.log
ssh: Could not resolve hostname slave32: Temporary failure in name resolution
ssh: Could not resolve hostname slave27: Temporary failure in name resolution
[master:04223] 1 more process has sent help message help-errmgr-base.txt / failed-daemon-launch
[master:04223] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages
Meine / etc / hosts des Master-Computers sieht so aus
127.0.0.1 localhost
#127.0.1.1 master
172.18.112.78 master
#Cluster Host Names
172.18.112.75 slave25
172.18.112.76 slave26
172.18.112.77 slave27
172.18.112.82 slave32
172.18.112.81 slave31
ssh slavexx funktioniert gut
meine mpi-hostdatei sieht so aus
localhost slots=4
slave25 slots=4
slave26 slots=4
slave27 slots=4
slave31 slots=4
slave32 slots=4
slave25 und slave26 funktionieren einwandfrei (max 12 prozessoren, mpiexec -np 16), aber mehr als das geben ssh: Could not resolve hostname slavexx: Temporary failure in name resolution
Error. es ist so seltsam, da ich pingen kann, ssh alle 5 Computer ohne ein Problem.
hat jemand eine idee das zu lösen?
und eine andere Sache, diese Maschinen sind geklont. Deshalb habe ich kürzlich den Hostnamen des Computers geändert und SSH und OpenMPI neu installiert.
AKTUALISIEREN: Gerade jetzt habe ich herausgefunden, dass nur die ersten drei in der mpi-hostfile
wird für den MPI-Lauf verwendet. für andere über Fehler Pops!