Wir bereiten die Implementierung unseres ersten Hadoop-Clusters vor. Als solches beginnen wir klein mit einem Vier-Knoten-Setup. (1 Hauptknoten und 3 Arbeitsknoten) Jeder Knoten verfügt über 6 TB Speicher. (6 x 1 TB Festplatten) Wir haben uns für ein SuperMicro 4-Knoten-Gehäuse entschieden, sodass sich alle vier Knoten eine einzige 4U-Box teilen.
Wir schauen uns nun an, wie diese Lösung für die Notfallwiederherstellung gesichert werden kann. (Denken Sie an Rack- oder Site-Verlust, nicht an Laufwerksverlust.) Die beste Lösung scheint eine Cluster-zu-Cluster-Kopie zu sein. Ich habe aber auch über Leute gelesen, die Daten von einer NAS- oder SMB-Freigabe kopieren. Außerdem werden wir den Masterknoten mit herkömmlichen Sicherungsmitteln sichern. Ich mache mir nur Sorgen um die HDFS-Daten. Hier sind meine Fragen:
1) Kann ich für die Cluster-zu-Cluster-Kopie einen EINZELNEN Knotencluster mit viel Speicherplatz einrichten, der als externes Replikat fungiert? Die Leistung ist mir egal, nur die Existenz und die Fähigkeit, den gesamten Datensatz zu speichern. (Wiederherstellungszeiten sind kein Problem, da dieser Cluster nicht für Missionen kritisch ist.) Kann die Kopie so geplant werden, dass sie nur einmal am Tag usw. ausgeführt wird?
2) Wie funktioniert dies bei der SMB- oder NAS-Option? Muss die Zielfestplatte HDFS formatiert sein? Muss ich jeden der drei Worker-Knoten vollständig sichern? Oder gibt es da draußen ein intelligentes Skript, das den Datensatz ohne Parität sichern kann? Ich bin mit dieser Lösung nicht sehr vertraut und habe nur online Verweise darauf gesehen. Ich hatte nicht viel Glück, Ressourcen oder Informationen zu finden.
Ich bin auch offen für andere DR-Optionen für Hadoop HDFS. Unser Ziel ist es, eine vollständige Kopie des HDFS-Datasets zu erhalten, damit wir es nach einem Rack- oder Site-Verlust wiederherstellen können.
Vielen Dank!