Sobrique erklärt, wie der manuelle Eingriff dazu führt, dass Ihre vorgeschlagene Lösung überoptimal ist , und ewwhite spricht über die Ausfallwahrscheinlichkeit verschiedener Komponenten . Beide IMO machen sehr gute Punkte und sollten stark berücksichtigt werden.
Es gibt jedoch ein Problem, das bisher noch niemand kommentiert zu haben scheint, was mich ein wenig überrascht. Sie schlagen vor:
Machen Sie [den aktuellen Hot-Spare-Host] zu einem Cold-Spare, nehmen Sie die Festplatten, legen Sie sie in den primären Host ein und ändern Sie das RAID von 1 auf 1 + 1.
Dies schützt Sie nicht vor allem, was das Betriebssystem auf der Festplatte tut.
Es schützt Sie nur wirklich vor Festplattenfehlern. Wenn Sie von Spiegeln (RAID 1) zu Spiegeln von Spiegeln (RAID 1 + 1) wechseln, reduzieren Sie zunächst die Auswirkungen erheblich. Sie können das gleiche Ergebnis erzielen, indem Sie die Anzahl der Festplatten in jedem Spiegelsatz erhöhen (z. B. von RAID 1 mit 2 Festplatten auf RAID 1 mit 4 Festplatten) und die Leseleistung während des normalen Betriebs sehr wahrscheinlich verbessern.
Schauen wir uns dann einige Möglichkeiten an, wie dies fehlschlagen könnte .
- Angenommen, Sie installieren Systemupdates, und der Prozess schlägt auf halbem Weg fehl. Vielleicht liegt ein Strom- und USV-Fehler vor , oder Sie haben einen Freak-Unfall und einen verkrüppelten Kernel-Fehler (Linux ist heutzutage ziemlich zuverlässig, aber es besteht immer noch das Risiko).
- Möglicherweise führt ein Update zu einem Problem, das Sie beim Testen nicht festgestellt haben (Sie führen Systemaktualisierungen durch, oder?), Das ein Failover auf das sekundäre System erfordert, während Sie das primäre System reparieren
- Möglicherweise verursacht ein Fehler im Dateisystemcode falsche, ungültige Schreibvorgänge auf die Festplatte.
- Vielleicht tut es ein fetter (oder sogar böswilliger) Administrator
rm -rf ../*
oder rm -rf /*
stattdessen rm -rf ./*
.
- Möglicherweise führt ein Fehler in Ihrer eigenen Software dazu, dass der Datenbankinhalt massiv beschädigt wird.
- Vielleicht schafft es ein Virus, sich einzuschleichen.
Vielleicht, vielleicht, vielleicht ... (und ich bin sicher, es gibt noch viele weitere Möglichkeiten, wie Ihr vorgeschlagener Ansatz scheitern könnte.) Am Ende läuft dies jedoch darauf hinaus, dass "die beiden Sätze immer synchron sind" "Vorteil". Manchmal möchten Sie nicht, dass sie perfekt synchron sind.
Je nachdem, was genau passiert ist, möchten Sie entweder einen heißen oder einen kalten Standby-Modus, der ein- und ausgeschaltet werden kann, oder geeignete Sicherungen. In beiden Fällen helfen Ihnen RAID-Spiegel von Spiegeln (oder RAID-Spiegeln) nicht, wenn der Fehlermodus neben dem Ausfall des Hardwarespeichergeräts (Festplattenabsturz) noch viel mehr beinhaltet. So etwas wie ZFS 'raidzN kann in mancher Hinsicht wahrscheinlich etwas besser abschneiden, in anderen jedoch überhaupt nicht.
Für mich würde dies Ihren vorgeschlagenen Ansatz von Anfang an zum No-Go machen, wenn die Absicht eine Art Katastrophen-Failover ist.