Benötige ich einen zweiten RAID-Controller für die Fehlertoleranz?

9

Ich habe einen Server mit 3 installierten Festplatten und einer Gesamtkapazität von 6. Wir planen, die maximale Kapazität zu erreichen, aber unser Berater schlug auch vor, einen zweiten RAID-Controller "aus Redundanzgründen" zu installieren, um die neuen Laufwerke zu unterstützen. Für mich macht das nicht viel Sinn. Selbst wenn auf einem zweiten RAID-Controller die Hälfte der Festplatten ausgeführt wird, bleibt nur die Hälfte unserer Festplatten / Programme / Daten hängen, wenn einer der Controller ausfällt (was nicht viel besser ist, als wenn keine ausgeführt wird). Wir stellen VMware auf den Server und er erwähnte vage einige erweiterte Fehlertoleranz- / Failover-Funktionen. Wie soll es funktionieren, wenn auf die Festplatten aufgrund eines ausgefallenen Controllers nicht zugegriffen werden kann?

Wenn ich nur die Gründe für Redundanz und nicht die Leistung zähle, warum sollte ich einen zweiten RAID-Controller auf meinem Server haben wollen?

raid fault-tolerance

— Bigbio2002
quelle

Ich habe eine Geschichte gesehen, in der der einzige RAID-Controller ausgefallen ist, wodurch der von ihm allein gewartete Multi-Disk-High-RAID-Speicher nicht nur unbrauchbar, sondern auch alle Daten dort nicht wiederherstellbar waren. Es war ein schwerer Schlag für die Firma. Letztendlich wurden die meisten Daten aus den Dateien auf den Workstations rekonstruiert. Totale Schande. Spiegeln Sie Daten auf dem unabhängigen Festplattencluster immer mit einem anderen Controller. Gehen Sie niemals davon aus, dass RAID 6 in jedem Fall Ihr Leben rettet, wenn Sie sich auf eine einzelne kleine Karte verlassen, die während des langjährigen Betriebs 7/24 80 ° C heiß wird.

— h22

11

In einem "Single Box High Availability" -Design möchten Sie ja einen zweiten Controller, idealerweise auch auf einem zweiten Bus. Diese Art von Ansatz ist jedoch einem billigeren Design gewichen, das auf Clustering basiert und bei dem ein Box-Fehler den Service nicht stoppt. Es hängt also davon ab, ob Sie eine Clusterumgebung verwenden oder sich auf eine einzelne Box verlassen möchten. Selbst wenn Ihre Antwort die letztere ist und zwei Controller haben, kann dies als zusätzliche Komplexität und möglicherweise als Overkill angesehen werden.

Bearbeiten - basierend auf Ihrem Kommentar zur Verwendung von ESXi bei Ihrer anderen Frage muss ich sagen, dass das Clustering fabelhaft ist. Wir haben viele 32-Wege-Cluster, die hervorragend funktionieren.

— Chopper3
quelle

AFAIK, wir werden kein Clustering verwenden. Wie würde mir ein zweiter Controller in einer Box zugute kommen? Gibt es so etwas wie ein Controller-Failover?

— Bigbio2002

1

Nicht in einer ESX / ESXi-Welt nein - eine einzige wäre in Ordnung. Stellen Sie sicher, dass Sie einen Controller erhalten, der ein großes R10-Array aller 6 Festplatten erstellt, aber Sie können diese logischen 2 TB (oder weniger) Festplatten in Ordnung erstellen. Mit der Pxxx-Serie von HP können Sie das übrigens tun.

— Chopper3

7

Ein zweiter RAID-Controller, der aktiv verwendet wird, dient nicht der Redundanz. Nur wenn es sich um einen Cold-Standby-Controller handelt, auf den Sie alle Festplatten umschalten, wenn die erste stirbt. Dann haben Sie Redundanz (für den Controller). Aber hüte dich davor, wie hier gepostet .

Das RAID dient also der Redundanz von Festplatten, die zu einem einzelnen Fehlerpunkt am Controller führen. Ein zweiter (nicht verwendeter) Controller kann dieses Problem lösen, da Sie die gesamte Festplatte auf die neue umstellen können. Ob dies funktioniert, hängt von anderen Faktoren ab ...

Ich bin kein Muttersprachler, aber für mich ist "Fehlertoleranz" etwas anderes als "Redundanz". Kann mir hier ein englischer Sprecher helfen?

— mailq
quelle

Redundanz ist ein Weg, um Fehlertoleranz zu erreichen :). Ich suchte nach etwas in der Art eines Cold-Standby- oder eines Failover-Controllers. Ist dies eine Funktion, die unterstützt wird, oder müsste ich die Karten manuell austauschen?

— Bigbio2002

Ich habe noch nie einen Controller gesehen, bei dem das Umschalten der Festplatten automatisch erfolgt. Dies liegt entweder daran, dass ich nicht danach gesucht habe oder dass ich mir nicht vorstellen kann, wie Sie die Kabel zwischen einer Festplatte und zwei Controllern verlegen sollen.

— Mailq

Dual-Port-Laufwerke sind in Unternehmensumgebungen weit verbreitet (denken Sie an SAN-Regale) - aber die Preise steigen offensichtlich um den Faktor 2 oder 3.

— Adaptr

3

Auf einer einzelnen Box benötigen Sie tatsächlich zwei RAID-Controller, die mit zwei verschiedenen PCI-E-Root-Komplexen verbunden sind, um eine vollständige Redundanz des E / A-Subsystems zu gewährleisten. Dies kann durch zwei verschiedene Konfigurationen erreicht werden:

Verwenden Sie teure SAS-Festplatten mit zwei Ports, wobei jede SAS-Verbindung mit einem anderen Controller verbunden ist. Auf diese Weise ist jeder Controller mit jeder Platte verbunden. Offensichtlich können die beiden Controller nicht gleichzeitig mit Festplatten arbeiten. Eine Art von Verriegelung / Zaun ist erforderlich, um den Zugriff auf Festplatten zu koordinieren. SCSI verfügt über einige spezielle Bestimmungen zur Bereitstellung des erforderlichen Zaunmechanismus, die jedoch von einer geeigneten Software koordiniert werden müssen. Mit anderen Worten, Sie können eine Festplatte nicht einfach an zwei Controller anschließen und sie täglich aufrufen. Stattdessen benötigen Sie eine geeignete Softwarekonfiguration, damit es problemlos funktioniert.
Verwenden Sie normale und billigere Single-Link-SAS / SATA-Festplatten und verbinden Sie eine Hälfte davon mit jedem Controller. Bei 6 Festplatten müssen Sie beispielsweise 3 Festplatten an einen Controller und 3 Festplatten an einen anderen Controller anschließen. Konfigurieren Sie auf jedem Controller nach Bedarf ein RAID-Array (z. B. RAID 5 oder RAID1). Anschließend können Sie auf Betriebssystemebene ein Software-RAID zwischen den beiden Festplatten-Arrays konfigurieren, um eine vollständige Array-Redundanz zu erreichen. Diese Lösung ist zwar billiger, hat aber den zusätzlichen Nachteil, dass sie Ihre Speicherkapazität effektiv halbiert (aufgrund des Software-RAID1-Levels).

Ein Hauptproblem bei beiden Ansätzen besteht darin, dass Sie keine vollständige Systemredundanz haben: Ein Motherboard- / CPU-Problem kann das gesamte System zum Erliegen bringen, unabhängig davon, wie viele Controller / Festplatten Sie haben.

Aus diesem Grund wird diese Art von Redundanz in einer Box in letzter Zeit selten verwendet (abgesehen von Mid- / High-End-SAN-Bereitstellungen). Vielmehr gewinnt Clustering / Netzwerkspiegelung zunehmend an Bedeutung. Mit Clustering (oder Netzwerkspiegelung) haben Sie vollständige Systemredundanz, da ein einzelnes ausgefallenes System den Datenzugriff nicht negieren kann. Offensichtlich hat Clustering seine eigenen Fallstricke, so dass es keine Silberkugel ist, aber in einigen Situationen können seine Vorteile nicht negiert werden. Darüber hinaus können Sie auch die asynchrone Netzwerkspiegelung verwenden, um eine nahezu Echtzeit-Datenredundanz an einem geografisch unterschiedlichen Standort zu erzielen, sodass ein einzelnes katastrophales Ereignis Ihre Daten nicht in Mitleidenschaft zieht.

— Shodanshok
quelle

Bei einigen Arten von Daten ist die Kopie, die nur zur Hälfte aktualisiert wird (weil die Synchronisierung auf halbem Weg fehlgeschlagen ist), möglicherweise unbrauchbar. Eine Datenbank ist das typische Beispiel, aber auch verschiedene Quellcodes und Datensätze mit vielen kleinen Dateien, die eng voneinander abhängig sind.

— H22

Dies hängt vom zugrunde liegenden Replikationsmechanismus ab. DRBD ermöglicht beispielsweise die Verwendung einer vollständigen (Protokoll C) oder nahezu vollständigen (Protokoll B) synchronisierten Replikation. Dies bedeutet, dass wenn ein Schreibvorgang auf dem Quellhost bestätigt wird, er tatsächlich auch auf dem Remotehost festgeschrieben wird. Mit anderen Worten, Schreibbarrieren werden auf beiden Hosts berücksichtigt. Mit dieser Garantie sollte jedes robuste Dateisystem / jede robuste Datenbank problemlos wiederhergestellt werden können.

— Shodanshok

Ja, einige Datenbanken unterstützen die Replikation, andere auch. Diese sind offensichtlich viel einfacher zu bearbeiten.

— 22.

1

Sie benötigen SAS-Laufwerke mit zwei Ports, um ein tatsächliches Failover auf mehreren Controllern zu ermöglichen. Diese sind zwar vorhanden, aber ausgesprochen günstig - nicht in der Preisspanne eines einzelnen Servers, der nur über internen Speicher verfügt.

Dies sind Technologien, die häufig in SAN-Systemen eingesetzt werden, bei denen der Tod von Controllern ein echtes Problem darstellt.

Für einen einzelnen Server ohne andere Failover-Funktionen wird ein zweiter Controller nichts gewinnen - er kostet nur mehr Geld und bietet dem Berater mehr Gewinn.

— adaptr
quelle