Antworten:
Überprüfen Sie lessFS, das Dateideduplizierungs-Dateisystem, für Linux. Es ist noch in der Beta, aber Sie können es ausprobieren:
Grüße,
MV
Die Deduplizierung von OpenFSolaris erfolgt in ZFS, diese Funktionalität ist jedoch derzeit nicht verfügbar.
Es wurde im vergangenen Winter von Jeff Bonwick und Bill Moore als Prototyp entwickelt und sie arbeiten daran, es diesen Sommer zu integrieren. Es sollte also in der nächsten Version von OpenSolaris verfügbar sein oder früher, wenn Sie mit dem Entwicklungszweig herumspielen möchten.
Für Personen, die mit der Datendeduplizierung möglicherweise nicht vertraut sind, ist dies eine Technik, bei der Daten auf Dateiebene (oder Blockebene, nehme ich an) analysiert werden und bei der identische Dateien / Blöcke im gesamten Dateisystem durch ein kleineres Token ersetzt werden. Dies hat den Effekt, dass die effektive Größe auf der Festplatte stark verkleinert wird. Es könnte als eine Form des Copy-on-Write angesehen werden . Lesen Sie die Wiki-Seite darauf.
Es gibt kein Dateisystem, von dem ich unter Linux gehört habe, um Dedup-, Datei- oder Block-Level auszuführen. Solch ein Biest wäre praktisch, obwohl es ziemlich prozessorintensiv ist.
Ein Jahr später, aber hier ist eine Lösung für OpenBSD namens Epitome: http://www.peereboom.us/epitome/ . Vorausgesetzt, es ist eine liberale Lizenzierung, könnte es sehr gut in den Linux-Kernel gelangen.
Ich kenne keine kostenlosen Implementierungen von Dedup für Linux. Ich habe einige Speicheranbieter gesehen, die empfohlen haben, ein HSM-System (Hierarchical Storage Management) mit einer VTL (Virtual Storage Library) zu verwenden, die dedupiert.
Sie können auch ein Occarina- ähnliches System in Betracht ziehen , das nicht transparent ist, aber bessere Ergebnisse liefert als Dedup.
Also ... keine Neuigkeiten über Deduplizierung unter Linux? opendedup mag eine Wahl sein, aber wenn ich die Java-Plattform gebe, auf der es läuft, möchte ich keine Kopfschmerzen bekommen. Ich habe es ja versucht, aber diese Java-Maschine und der Rest kommen mit meinen Anforderungen an Speicherreaktionszeiten und Sicherheit nicht sehr gut zurecht.
Die Deduplizierungsoption ist unter Linux auf den Dateisystemen BTRFS und ZFS verfügbar. BTRFS wird nativ unter Linux entwickelt und verfügt über ein Offline-Deduplizierungstool. Ich denke nicht 'offline', du musst fs umount. Offline bedeutet, dass aktiv geschriebene Daten nicht dedupliziert werden. Später führen Sie jedoch ein Tool für deduplizierte Gedanken aus, das jetzt gespeichert ist. Eigentlich ist das Tool wahrscheinlich in der Beta. Ein anderer Weg ist innerhalb von ZFS. Erhältlich als FUSE und nativ: http://zfsonlinux.org/ . Dies macht Online-Deduplizierung, leider verlangsamt dies das Schreiben, da alle im laufenden Betrieb berechnet werden müssen. Sie können dieses Verhalten online aktivieren und deaktivieren. Nachdem Sie die Deduplizierung deaktiviert haben, werden alle deduplizierten Daten weiterhin als dedupliziert gespeichert. Neue Schreibvorgänge werden als "dupliziert" gespeichert. Wenn Sie diese Daten in Zukunft deduplizieren möchten, müssen Sie die Deduplizierung aktivieren und alle "duplizierten" Dateien neu schreiben.
Siehe Dokument auf der Seite. Um das Schreiben und Lesen zu beschleunigen, können Sie dem Speicherpool schnellere Geräte hinzufügen (insbesondere SDD-Laufwerke oder möglicherweise schnelleres Flash-USB, achten Sie auf die Zuverlässigkeit der Geräte).
DRBD macht genau das und macht es wirklich gut! Kann Master / Slave oder Master / Master machen :-)