Leider sieht es so aus, als ob wir nicht auf den Grund gehen, was die Anwendung war, aber um einen gewissen Nutzen aus diesem Vorfall zu ziehen, wollte ich eine Referenzantwort erstellen. Dies ist auf VMware und Virtual Layer Management ausgerichtet. Viele Administratoren sind getrennt und können nicht schnell auf Gäste oder Speicher zugreifen, und das ist für sie :)
http://support.seagate.com/kbimg/flash/laptop/Laptop.swf scheint am ehesten mit einer tatsächlichen Anwendung übereinzustimmen, die @MosheKatz gefunden hat.
In diesem Fall sollte die Untersuchung folgendermaßen aussehen:
- Sie bemerken, dass einige, aber nicht alle VMs abgestürzt sind. Sie vermuten, dass dies auf ein Speicherproblem zurückzuführen ist (da dies normalerweise die wahrscheinlichste Ursache ist).
- Versuchen Sie zunächst, einen gemeinsamen Faktor zu isolieren. Haben alle abgestürzten VMs denselben Datenspeicher? In diesem Fall war dies der Fall, aber einige Computer waren in Ordnung, sodass offensichtliche Hardwareprobleme ausgeschlossen wurden.
- Überprüfen Sie alle defekten VMs, um festzustellen, ob ein gemeinsamer Faktor (Zeit, Funktion usw.) vorliegt. In diesem Fall gab es nicht.
Suchen Sie nach anderen ungewöhnlichen Ereignissen. Etwas hat hier eine Fahne gehisst:
- Der NFS-Speicher war Thin-Backed (auf Array-Ebene). Dies bedeutet, dass obwohl z. 200 GB werden den ESXi-Hosts zur Verfügung gestellt, tatsächlich sind nur 100 GB verfügbar. Dieses Wissen besitzt jedoch nur das Array. Wir haben festgestellt, dass eine Reihe von VMs angehalten wurden, da ihnen der Speicherplatz ausgegangen war. Wir waren der Meinung, dass dies die Hauptursache gewesen sein könnte. Daher bestand unsere erste Aktion darin, mehr Speicher auf dem Back-End zuzuweisen, um dies als Problem zu beheben.
Nachdem dies behoben war (eine einfache Änderung der Benutzeroberfläche) und die angehaltenen VMs erfolgreich neu gestartet wurden, kehrten wir zum ursprünglichen Problem zurück. Wir haben die virtuellen Festplatten von den defekten VMs auf eine funktionierende VM gemountet und festgestellt, dass sich auf den Festplatten keine Partitionstabelle befindet. Wir hatten keinen Hex-Viewer zur Verfügung, also mussten wir davon ausgehen, dass die Festplatten jetzt leer waren.
Das Überwachungssystem warnte vor einer neuen VM, die gerade nicht mehr reagierte. Dies war großartig, da eine Last von VMs Minuten zuvor aufgrund des Speicherplatzproblems nicht mehr reagierte. Die Tatsache, dass diese neue VM schnell gefunden wurde, war ein Zeichen für eine gute Überwachungsadministration.
Wir öffneten eine Konsole, überprüften den Gast und sahen den obigen Screenshot.
- In diesem Stadium ging ich zum Serverfehler-Chatroom, um zu prüfen, ob das Programm identifiziert werden konnte, während mein Speicherkollege alle Protokolle und Ereignisse der virtuellen Ebene überprüfte, um sicherzustellen, dass in unserem Bereich keine Speichervorgänge ausgeführt wurden.
- Wir hätten die VM anhalten sollen, die Suspend-Datei ausschreiben und den Dump analysieren müssen, um festzustellen, ob das ausgeführte Programm identifiziert werden konnte. VM anhalten, um PDF VMware KB zu kernen
Letztendlich wussten wir, dass Tools für die virtuelle Infrastruktur sich nicht innerhalb eines Gasts gemeldet hätten, wie oben beschrieben. Es konnte festgestellt werden, dass kein ISO bereitgestellt und keine Ereignisse für die VM protokolliert wurden. Wir konnten sehen, dass die VM nicht "hard power cycled" war, sondern nur einen sanften Neustart (dies ist für die zugrunde liegende Infrastruktur unsichtbar). Wir wussten, dass es keine Speicherseite war, da wir das bereits ausgeschlossen hatten. Wir hatten den Verdacht, dass dies nicht automatisiert war, da dies innerhalb weniger Stunden auf bestimmten VMs geschah. Wir vermuteten, dass es nicht böswillig war, da die Konsole "Disk Wipe" meldete, wenn dies der Fall war :)
Die Schlussfolgerung war also, dass ein Benutzer das Löschen der Festplatte initiierte. Das ist soweit meine Untersuchung ging, aber ich hoffe, Sie fanden es nützlich.
Stunden gelernt:
- Sichern und testen Sie Ihre Wiederherstellungen
- Stellen Sie sicher, dass alle Benutzer, insbesondere Administratorbenutzer, wissen, dass sie in einer Thin Provisioning-Umgebung arbeiten, und vermeiden Sie das Formatieren von Schreibdatenträgern (z. B. das Schreiben von Lasten von Einsen)
- Verfügen Sie über ein gutes Überwachungssystem.
- Und eine neue für mich: Halten Sie in jeder großen virtuellen Umgebung eine VM mit Tools bereit, auch wenn sie ausgeschaltet ist, und installieren Sie Diagnosetools. Leistung, Netzwerkspeicher. Wenn dies verfügbar wäre, hätten wir einen Hex-Dump auf die beschädigte Festplatte mounten und durchführen können, um zu sehen, ob sie wirklich leer ist oder nur eine MBR fehlt. Wir hätten auch sehen können, ob es mit Einsen geschrieben wurde.