Sie scheinen vMotion und HA zu verwechseln, die unterschiedliche Funktionen sind, die unterschiedliche Funktionen haben.
vMotion ist eine Funktion, mit der virtuelle Maschinen ohne Ausfallzeiten und mit minimalen Betriebsstörungen (Millisekunden) von einem physischen Host auf einen anderen migriert werden können. Dies erfolgt vor der Wartung und erfordert, dass sich die VM sowie der Quell- und der Zielhost bereits in einem fehlerfreien Zustand befinden. HA ist eine Funktion, die ausgefallene virtuelle Maschinen (oder unzugängliche virtuelle Maschinen, wenn die Hostisolation konfiguriert ist) neu startet und zu Ausfallzeiten für die VM führt, da die gesamte virtuelle Maschine ausgeschaltet und neu gestartet wird.
Wichtig zum Mitnehmen: Eine vMotion ist kein HA-Failover. Ein HA-Failover ist ein HA-Failover.
vMotionen werden durch Folgendes ausgelöst:
- Ein Benutzer initiiert eine vMotion
- DRS initiiert eine vMotion als Reaktion auf Ladebedingungen (durch die DRS-Aggressivitätseinstellung festgelegte Schwellenwerte), Verstöße gegen Affinitätsregeln oder durch VUM ausgelöste Hostaktualisierungen
HA-Failover werden durch folgende Dinge ausgelöst:
- Ein Host in Ihrem HA-Cluster hat festgestellt, dass ein anderer Host im Cluster ausgefallen ist und nicht über die konfigurierten Verwaltungsnetzwerke oder Heartbeat-Datenspeicher auf HA-Heartbeats reagiert
- Die Isolationsantwort ist so konfiguriert, dass VMs heruntergefahren oder ausgeschaltet werden. Der Host kann nicht mehr mit den meisten Clusterknoten sprechen, wodurch ein Herunterfahren der VM und die anschließende Erkennung von HA-Fehlern von der verbleibenden Mehrheit des Clusters ausgelöst werden (sofern vorhanden) eine der Gefahren einer Isolationsreaktion)
- Der Cluster / die VM ist für die VM-Überwachung über VMware Tools konfiguriert, der Hypervisor hat für einen bestimmten Zeitraum keinen Heartbeat empfangen und 120 Sekunden lang ist keine Festplatten- oder Netzwerkaktivität aufgetreten
Fazit: vMotions treten aufgrund von Leistungsereignissen auf, und HA-Failover treten aufgrund von Verfügbarkeitsereignissen auf.
Sie haben die Festplatte unter einer laufenden VM herausgezogen. Das Standardverhalten von vSphere und den meisten Hypervisoren besteht in diesem Fall darin, die virtuelle Maschine in Ruhe zu lassen und sie ihre eigenen Festplattenprobleme behandeln zu lassen. Dafür gibt es mehrere gute Gründe:
- Einige Betriebssysteme / Distributionen (z. B. pfSense) funktionieren einwandfrei, wenn die zugrunde liegende Festplatte nicht mehr reagiert
- Ein paar Dutzend VMs, die gleichzeitig gestartet werden, verursachen in der Regel ein Problem mit einer "donnernden Herde". Wenn Sie dies auf einem Speicher tun, der bereits fragwürdig ist, ist dies möglicherweise nicht die beste Idee
- Wie beim Tauschen können das Betriebssystem (und die Anwendungen) Speicherprobleme normalerweise besser lösen als der Hypervisor
- Manchmal hängt der Speicher nur - er ist die fehleranfälligste Komponente in den meisten virtualisierten Umgebungen. Versuchen Sie am besten, es zu erkennen und darauf aufmerksam zu machen, und lassen Sie einen Administrator herausfinden, was damit zu tun ist, bevor Sie eine gesamte Umgebung überspringen
Auf der anderen Seite ist es für viele Workloads (Datenbanken fallen in den Sinn) eine gute Idee, das System herunterzufahren, sobald die Gefahr einer Beschädigung oder eines Verlusts von Transaktionen besteht. Im besten Fall befinden Sie sich jedoch wahrscheinlich ohnehin in einem inkonsistenten Zustand, da Sie die Datenbank ohne die Festplatte nicht sauber stilllegen können.
Letztendlich: Es gibt einige gute Anwendungsfälle dafür, dass HA auf unzuverlässigen Speicher reagiert, aber das funktioniert heute nicht mehr, und das Verhalten, das Sie sehen, ist völlig normal.