Ich muss eine kürzliche Zunahme fehlerhafter RAID-1 (Mirror) -Arrays untersuchen, auf die wir in unserem installierten PC-Park (10K + PCs) stoßen.
Das Problem ist zweierlei: Ein Teil unserer Pilotphase begann mit Solid-State-Drives (SSDs). Wir haben ungefähr 80 PCs mit 2x Kingston V300 60 GB SSDs in RAID-1 herausgebracht. Bei diesen Installationen wird eine Ausfallrate von 10-15% über einen Zeitraum von max. 3 Monate, was natürlich nicht akzeptabel ist. Dies erfolgt auf einer PC-Plattform mit einem integrierten Intel ICH7R SATA RAID-Controller
Der zweite Teil ist, dass wir auch einen alarmierenden Anstieg der Ausfälle auf einer vorhandenen Plattform mit den neuesten Seagate Barracuda-Festplatten sehen. Diese Systeme basieren auf alten P4-Plattformen und verwenden den Promise FastTrak TX2300 SATA RAID-Controller. Wir verwenden diese Systeme seit über 7 Jahren mit denselben RAID-Controllern, aber erst mit den kürzlich verwendeten Seagate-Festplatten wird eine zunehmende Ausfallrate verzeichnet.
Nun zum Problem: Was ich in beiden Fällen habe, ist, dass ich nicht feststellen kann, was den Ausfall dieses RAID-Arrays verursacht hat. Für beide Fälle habe ich Beispiele für ausgefallene Systeme erhalten. Das Problem ist, dass bei der Untersuchung der Laufwerke anscheinend beide Laufwerke einwandfrei funktionieren, keine SMART-Fehler melden und alle Dateien lesbar sind (außer natürlich die Dateien, die nach dem Ausfall des Arrays erstellt wurden).
Wenn Sie die Festplatten löschen und das RAID-Array neu erstellen, funktioniert das System im Labor einwandfrei.
Gibt es Tools, mit denen ich diese Datenträger weiter analysieren kann? Ich könnte glauben, dass sie die meiste Zeit gut funktionieren, aber aufgrund einer kurzen Unterbrechung vom RAID-Controller als "schlecht" markiert werden. Es könnte auch der RAID-Controller sein, von dem ich annehme, dass er fehlerhaft ist. Wie teste ich das?
Beide genannten Systeme laufen unter Windows POSReady 2009 (im Grunde Windows XP)
dd
und das Array hat wieder auf magische Weise funktioniert. Dasselbe geschah einige Monate später noch einmal. Wechselte danach zu einem geeigneten Controller und hatte nie mehr Probleme mit denselben Laufwerken. Andere werden Ihnen sagen, dass sie ICHR-RAIDs jahrelang ohne Probleme verwendet haben, aber ich würde es nie wieder verwenden.