Mit Hadoop und CouchDB in Blogs und verwandten Nachrichten ist dies ein verteilter fehlertoleranter Speicher (Engine), der tatsächlich funktioniert.
- In CouchDB sind eigentlich keine Distributionsfunktionen integriert, meines Wissens fehlt einfach der Kleber für die automatische Verteilung von Einträgen oder sogar ganzen Datenbanken.
- Hadoop scheint sehr verbreitet zu sein - zumindest wird es gut gedruckt, hat aber immer noch eine einzige Schwachstelle: den NameNode. Außerdem ist es nur über FUSE montierbar. Ich verstehe, dass HDFS nicht das eigentliche Hauptziel von Hadoop ist
- GlusterFS hat ein geteiltes Nichts-Konzept, aber in letzter Zeit habe ich mehrere Beiträge gelesen, die mich zu der Meinung geführt haben, dass es nicht ganz so stabil ist
- Lustre hat auch eine einzige Fehlerquelle, da ein dedizierter Metadatenserver verwendet wird
- Ceph scheint der Spieler der Wahl zu sein, aber die Homepage gibt an, dass es sich noch in der Alpha-Phase befindet.
Die Frage ist also, welches verteilte Dateisystem den folgenden Funktionsumfang hat (keine bestimmte Reihenfolge):
- POSIX-kompatibel
- einfaches Hinzufügen / Entfernen von Knoten
- Shared-Nothing-Konzept
- Läuft auf billiger Hardware (AMD Geode- oder VIA Eden-Prozessoren)
- Integrierte Authentifizierung / Autorisierung
- ein Netzwerk-Dateisystem (ich möchte es gleichzeitig auf verschiedenen Hosts mounten können)
Schön zu haben:
- lokal zugängliche Dateien: Ich kann die Partition mit einem lokalen Standarddateisystem (ext3 / xfs / whatever ...) von einem Knoten herunterfahren und trotzdem auf die Dateien zugreifen
Ich suche keine gehosteten Anwendungen, sondern etwas, das es mir ermöglicht, 10 GB jeder unserer Hardware-Boxen zu erfassen und diesen Speicher in unserem Netzwerk zur Verfügung zu haben, der leicht auf einer Vielzahl von Hosts bereitgestellt werden kann.