Wir haben ein paar Dutzend Proxmox-Server (Proxmox läuft unter Debian), und ungefähr einmal im Monat wird einer von ihnen eine Kernel-Panik haben und abstürzen. Das Schlimmste an diesen Abstürzen ist, dass wenn sich ein Server auf einem anderen Switch als dem Cluster-Master befindet, alle anderen Proxmox-Server auf diesem Switch nicht mehr reagieren, bis wir den Server finden, der tatsächlich abgestürzt ist, und ihn neu starten.
Als wir dieses Problem im Proxmox-Forum gemeldet haben, wurde uns empfohlen, ein Upgrade auf Proxmox 3.1 durchzuführen, und wir sind seit einigen Monaten dabei, dies zu tun. Leider war einer der Server, die wir auf Proxmox 3.1 migriert haben, am Freitag mit einer Kernel-Panik blockiert, und wieder waren alle Proxmox-Server, die sich auf demselben Switch befanden, über das Netzwerk nicht erreichbar, bis wir den abgestürzten Server finden und neu starten konnten.
Nun, fast alle Proxmox-Server auf dem Switch ... Ich fand es interessant, dass die Proxmox-Server auf demselben Switch, die noch auf Proxmox Version 1.9 waren, nicht betroffen waren.
Hier ist ein Screenshot der Konsole des abgestürzten Servers:
Als der Server abstürzte, waren die übrigen Server auf demselben Switch, auf denen auch Proxmox 3.1 ausgeführt wurde, nicht mehr erreichbar und spuckten Folgendes aus:
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...
uname -a Ausgabe des gesperrten Servers:
Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux
pveversion -v Ausgabe (abgekürzt):
proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109
Zwei Fragen:
Irgendwelche Hinweise, was die Kernel-Panik verursachen würde (siehe Bild oben)?
Warum sollten andere Server auf demselben Switch und derselben Version von Proxmox aus dem Netzwerk entfernt werden, bis der gesperrte Server neu gestartet wird? (Hinweis: Auf demselben Switch befanden sich andere Server, auf denen die ältere Version 1.9 von Proxmox ausgeführt wurde, die nicht betroffen waren. Außerdem waren keine anderen Proxmox-Server im selben 3.1-Cluster betroffen, die sich nicht auf demselben Switch befanden.)
Vielen Dank im Voraus für jeden Rat.