Ich möchte die Zuverlässigkeit verschiedener RAID-Systeme entweder mit Consumer-Laufwerken (URE / Bit = 1e-14) oder mit Enterprise-Laufwerken (URE / Bit = 1e-15) vergleichen. Die Formel für die Wahrscheinlichkeit eines erfolgreichen Wiederaufbaus (ohne Berücksichtigung mechanischer Probleme, die ich später berücksichtigen werde) ist einfach:
error_probability = 1 - (1-per_bit_error_rate) ^ bit_read
Es ist wichtig zu bedenken, dass dies die Wahrscheinlichkeit ist, MINDESTENS einen URE zu erhalten, nicht notwendigerweise nur einen.
Nehmen wir an, wir möchten 6 TB nutzbaren Speicherplatz. Wir können es bekommen mit:
RAID1 mit 1 + 1 Festplatten mit jeweils 6 TB. Während des Neuaufbaus wird 1 Platte mit 6 TB zurückgelesen, und das Risiko ist: 1- (1-1e-14) ^ (6e12 * 8) = 38% für Consumer-Laufwerke oder 4,7% für Enterprise-Laufwerke.
RAID10 mit 2 + 2 Festplatten mit jeweils 3 TB. Während des Neuaufbaus wird nur 1 3-TB-Platte (die mit der ausgefallenen gepaart!) Zurückgelesen, und das Risiko ist geringer: 1- (1-1e-14) ^ (3e12 * 8) = 21% für den Verbraucher oder 2,4% für Enterprise-Laufwerke.
RAID5 / RAID Z1 mit 2 + 1 Festplatten mit jeweils 3 TB. Während der Wiederherstellung werden 2 Festplatten mit jeweils 3 TB zurückgelesen, und das Risiko ist: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% für Consumer- oder 4,7% für Enterprise-Laufwerke.
RAID5 / RAID Z1 mit 3 + 1 Festplatten mit jeweils 2 TB (wird häufig von Benutzern von SOHO-Produkten wie Synologys verwendet). Während der Wiederherstellung werden 3 Festplatten mit jeweils 2 TB zurückgelesen, und das Risiko ist: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% für Consumer- oder 4,7% für Enterprise-Laufwerke.
Die Berechnung des Fehlers für die Toleranz einzelner Festplatten ist einfach, schwieriger ist die Berechnung der Wahrscheinlichkeit bei Systemen, die für den Ausfall mehrerer Festplatten tolerant sind (RAID6 / Z2, RAIDZ3).
Wenn nur die erste Festplatte für den Neuaufbau verwendet wird und die zweite für den Fall eines URE von Anfang an erneut gelesen wird, ist die Fehlerwahrscheinlichkeit diejenige, die über der Quadratwurzel berechnet wurde (14,5% für Consumer-RAID5 2 + 1, 4,5% für Consumer RAID1 1 + 2). Ich nehme jedoch an (zumindest in ZFS mit vollständigen Prüfsummen!), Dass die zweite Parität / verfügbare Festplatte nur bei Bedarf gelesen wird, was bedeutet, dass nur wenige Sektoren benötigt werden: Wie viele UREs können möglicherweise auf der ersten Festplatte auftreten? nicht viele, sonst würde die Fehlerwahrscheinlichkeit für Einscheiben-Toleranzsysteme noch mehr in die Höhe schnellen, als ich berechnet habe.
Wenn ich richtig liege, würde ein zweiter Paritätsdatenträger das Risiko praktisch auf extrem niedrige Werte senken.
Abgesehen davon ist zu berücksichtigen, dass Hersteller die URE-Wahrscheinlichkeit für Laufwerke der Consumer-Klasse aus Marketinggründen erhöhen (mehr Laufwerke der Enterprise-Klasse verkaufen). Daher wird auch für HDDs der Consumer-Klasse ein URE / Bit-Lesevorgang von 1E-15 erwartet .
Einige Daten: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/
Die Werte, die ich in Klammern angegeben habe (Enterprise-Laufwerke), gelten daher auch für Consumer-Laufwerke. Echte Enterprise-Laufwerke weisen eine noch höhere Zuverlässigkeit auf (URE / Bit = 1e-16).
In Bezug auf die Wahrscheinlichkeit mechanischer Ausfälle sind sie proportional zur Anzahl der Festplatten und proportional zur für die Wiederherstellung erforderlichen Zeit.