So erholen Sie sich von einer „ungültigen Laufwerksbewegung“ (HP SmartArray P411)


7

Aufgrund des Hurrikans Matthew hat unser Unternehmen alle Server für zwei Tage heruntergefahren. Einer der Server war ein ESXi-Host mit einem angeschlossenen HP StorageWorks MSA60.

Als wir heute die Dinge wieder hochfuhren und uns beim vSphere-Client anmeldeten, stellten wir fest, dass keine unserer Gast-VMs verfügbar ist (alle sind als "unzugänglich" aufgeführt). Wenn ich mir den Hardwarestatus in vSphere anschaue, werden der Array-Controller und alle angeschlossenen Laufwerke als "Normal" angezeigt, aber alle Laufwerke werden als "nicht konfigurierte Festplatte" angezeigt.

Wir haben den Server neu gestartet und versucht, das RAID-Konfigurationsdienstprogramm aufzurufen, um zu sehen, wie die Dinge von dort aus aussehen. Wir haben jedoch die folgende Meldung erhalten:

Während des POST wurde eine ungültige Antriebsbewegung gemeldet. Änderungen an der Array-Konfiguration nach einer ungültigen Laufwerksbewegung führen zum Verlust alter Konfigurationsinformationen und des Inhalts der ursprünglichen logischen Laufwerke

Geben Sie hier die Bildbeschreibung ein

Unnötig zu sagen, dass wir dadurch sehr verwirrt sind, weil nichts "bewegt" wurde; Nichts hat sich geändert. Wir haben einfach den MSA und den Server hochgefahren und haben dieses Problem seitdem.

Der MSA wird über ein einzelnes SAS-Kabel angeschlossen, und die Laufwerke sind mit Aufklebern gekennzeichnet, sodass ich weiß, dass die Laufwerke nicht bewegt oder umgeschaltet wurden:

---------------------
| 01 | 04 | 07 | 10 |
---------------------
| 02 | 05 | 08 | 11 |
---------------------
| 03 | 06 | 09 | 12 |
---------------------

Im Moment weiß ich nicht, welche Marke und welches Modell die Laufwerke haben, aber es sind alles 1 TB SAS-Laufwerke.

Ich habe zwei Hauptfragen / Bedenken:

  1. Was hätte dazu führen können, dass die Geräte nur aus- und wieder eingeschaltet wurden? Ich habe natürlich die Möglichkeit, das Array neu zu erstellen und von vorne zu beginnen, aber ich bin misstrauisch über die Möglichkeit, dass dies erneut geschieht (zumal ich keine Ahnung habe, was es verursacht hat).

  2. Gibt es in der Hölle die Chance eines Schneeballs, dass ich unsere Array- und Gast-VMs wiederherstellen kann, anstatt alles neu erstellen und unsere VM-Backups wiederherstellen zu müssen?


2
Rufen Sie jetzt zuerst HP an, Sie haben möglicherweise keinen Vertrag mit ihnen, aber alles, was sie Ihnen in Rechnung stellen müssen, ist gut angelegtes Geld. In der Zwischenzeit ziehen Sie alle Festplatten, Kabel, Shelf-Controller und Festplatten-Controller heraus und setzen Sie sie erneut ein. Sie wissen es nie, aber tun Sie nichts mit dem Array, bis HP einen guten Eindruck hinterlassen hat.
Chopper3

Können Sie uns das Layout der 12 Festplattenschächte im MSA60 geben? Wie ist das JBOD-Gehäuse mit dem Server verkabelt? Ein SAS-Kabel? Zwei SAS-Kabel (Dual-Domain)?
ewwhite

Welche Marke / welches Modell / welche Kapazität haben die installierten Festplatten?
ewwhite

Ich habe versucht, die Informationen über die MSA und die Laufwerke hinzuzufügen, aber sie erscheinen als "fett" oder als starker Text (obwohl ich sie nicht so formatiert habe) ... vielleicht kann ein Mod sie für mich bearbeiten.
John 'Shuey' Schuepbach

Es sind die Nachrichten, die vor dieser erschienen sind , von denen Sie Bilder erhalten möchten.
Michael Hampton

Antworten:


5

Richtig, das ist eine sehr prekäre Situation ...

Der HP Smart Array-Controller kann also eine bestimmte Anzahl von Bewegungen des physischen Laufwerks verarbeiten, bevor die Array-Konfiguration unterbrochen wird. Denken Sie daran, dass sich HP RAID-Metadaten auf den physischen Laufwerken und nicht auf dem Controller befinden ...

Der MSA60 ist ein 12-Bay-3,5-Zoll-SAS-JBOD-Gehäuse der ersten Generation. Er wurde 2008/2009 ausgelaufen. Er ist alt genug, dass er sich heute nicht auf dem kritischen Pfad einer vSphere-Bereitstellung befinden sollte.

In diesem Fall versucht der P411-Controller, Sie zu schützen. Möglicherweise haben Sie einen Fehler mit mehreren Laufwerken erlitten, einen Firmware-Fehler festgestellt, eine der beiden Controller-Schnittstellen auf der Rückseite des MSA60 verloren oder einen anderen seltsamen Fehler.

Dies klingt auch nach einem älteren Server-Setup. Daher möchte ich den betreffenden Server und die Firmware-Version des Smart Array P411 kennen.


Ich würde vorschlagen, alle Komponenten von der Stromversorgung zu trennen. Ich warte ein paar Minuten. Einschalten ... und POST-Eingabeaufforderungen sehr genau beobachten.

Die Details finden Sie in meiner Antwort hier:
Logische Laufwerke auf dem HP Smart Array P800 werden nach dem Neustart nicht erkannt

Es kann eine Option sein , ein zuvor ausgefallenes logisches Laufwerk wieder zu aktivieren, mit einer Option zu drücken F1oder F2. Wenn präsentiert, versuchen Sie es F2.


1

Ihr werdet das nicht glauben ...

Zuerst habe ich versucht, den vorhandenen MSA neu zu starten, ein paar Minuten gewartet und dann den ESXi-Host eingeschaltet, aber das Problem blieb bestehen. Ich habe dann den Host und die MSA heruntergefahren, die Laufwerke in unsere Ersatz-MSA verschoben, sie eingeschaltet, ein paar Minuten gewartet und dann den ESXi-Host eingeschaltet. Das Problem blieb weiterhin bestehen.

Zu diesem Zeitpunkt dachte ich, ich wäre ziemlich durchgeknallt, und während der Initialisierung des RAID-Controllers gab es nichts, wo ich die Option hatte, ein ausgefallenes logisches Laufwerk wieder zu aktivieren. Also habe ich die RAID-Konfiguration gestartet, erneut überprüft, ob keine logischen Laufwerke vorhanden sind, und ein neues logisches Laufwerk erstellt (RAID 1 + 0 mit zwei Ersatzlaufwerken; genau wie vor ungefähr 2 Jahren, als wir diesen Host und eingerichtet haben Lager).

Dann habe ich den Server wieder in vSphere booten lassen und über vCenter darauf zugegriffen. Als erstes habe ich den Host aus dem Inventar entfernt und dann erneut hinzugefügt (ich hatte gehofft, alle unzugänglichen Gast-VMs auf diese Weise zu löschen, aber sie wurden nicht aus dem Inventar gelöscht). Sobald der Host wieder in meinem Inventar war, entfernte ich jede der Gast-VMs einzeln. Nachdem das Inventar gelöscht worden war, überprüfte ich, dass kein Datenspeicher vorhanden war und dass die Datenträger im Grunde bereit waren und als "Datendatenträger" warteten. Also habe ich einen neuen Datenspeicher erstellt (wieder wie vor ein paar Jahren mit VMFS). Ich wurde schließlich aufgefordert, eine Mount-Option anzugeben, und ich hatte die Option "Vorhandene Signatur beibehalten". Zu diesem Zeitpunkt dachte ich, es wäre einen Versuch wert, die Unterschrift zu behalten - wenn die Dinge nicht klappen würden, Ich könnte es immer wegblasen und den Datenspeicher neu erstellen. Nachdem ich den Vorgang des Erstellens des Datenspeichers mit der Option "Signatur behalten" abgeschlossen hatte, versuchte ich, zum Datenspeicher zu navigieren, um festzustellen, ob sich etwas darin befand - er schien leer zu sein. Aus Neugier ging ich zum Host und überprüfte von dort aus, und zu meiner Überraschung konnte ich alle meine alten Daten und alle meine alten Gast-VMs sehen! Ich ging zurück in vCenter und scannte den Speicher erneut und aktualisierte die Konsole. Alle unsere alten Gast-VMs waren da! Ich habe jede VM neu registriert und konnte alles wiederherstellen! Alle unsere Gast-VMs sind gesichert und kommunizieren erfolgreich im Netzwerk. Aus Neugier ging ich zum Host und überprüfte von dort aus, und zu meiner Überraschung konnte ich alle meine alten Daten und alle meine alten Gast-VMs sehen! Ich ging zurück in vCenter und scannte den Speicher erneut und aktualisierte die Konsole. Alle unsere alten Gast-VMs waren da! Ich habe jede VM neu registriert und konnte alles wiederherstellen! Alle unsere Gast-VMs sind gesichert und kommunizieren erfolgreich im Netzwerk. Aus Neugier ging ich zum Host und überprüfte von dort aus, und zu meiner Überraschung konnte ich alle meine alten Daten und alle meine alten Gast-VMs sehen! Ich ging zurück in vCenter und scannte den Speicher erneut und aktualisierte die Konsole. Alle unsere alten Gast-VMs waren da! Ich habe jede VM neu registriert und konnte alles wiederherstellen! Alle unsere Gast-VMs sind gesichert und kommunizieren erfolgreich im Netzwerk.

Ich denke, die meisten Leute in der IT-Community würden zustimmen, dass die Chancen, dass so etwas passiert, äußerst gering bis unmöglich sind.

Für mich war dies ein Wunder Gottes ...


1
Ja, ich denke du hast recht, das war fast ein Wunder, zähle dich in der Tat als SEHR glücklich. Sichern Sie jetzt das Los und stellen Sie bitte etwas Unterstützbares wieder her.
Chopper3

1
Es ist eigentlich kein Wunder… aber das war viel Experimentieren und Anstrengung, ohne die Grundursache zu identifizieren; Dies könnte immer noch der Smart Array P411 RAID-Controller auf Ihrem Host-Server sein. ZB könnte das wieder passieren. Haben Sie mit der Firmware-Version des Controllers geantwortet?
ewwhite

@ewwhite 6.64 (Okt. 2015). Ich hätte gerne die Grundursache herausgefunden, aber diese Server mussten so schnell wie möglich verfügbar sein. Ich bin sicher, mein Chef wird sich so schnell wie möglich auch um einen Ersatzserver / -speicher kümmern.
John 'Shuey' Schuepbach

1
Wenn nichts anderes ... Jetzt klingt nach einer großartigen Zeit, um einige Backups
Journeyman Geek
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.