Ich habe einen Forschungscluster mit ca. 40 TB Daten in drei Dateisystemen geerbt. Die Daten reichen fast 15 Jahre zurück und es gibt höchstwahrscheinlich eine große Anzahl von Duplikaten, da die Forscher die Daten aus unterschiedlichen Gründen gegenseitig kopieren und sich dann einfach an den Kopien festhalten.
Ich kenne De-Duping-Tools wie fdupes und rmlint. Ich versuche, eine zu finden, die auf einem so großen Datensatz funktioniert. Es ist mir egal, ob es Wochen (oder sogar Monate) dauert, bis alle Daten gecrawlt sind - wahrscheinlich werde ich es trotzdem drosseln, um die Dateisysteme zu schonen. Aber ich muss ein Tool finden, das entweder sehr effizient mit RAM arbeitet oder alle erforderlichen Zwischendaten in Dateien und nicht in RAM speichert. Ich gehe davon aus, dass mein RAM (64 GB) erschöpft ist, wenn ich alle diese Daten als einen Satz durchsuche.
Ich experimentiere jetzt mit fdupes auf einem 900GB Baum. Es sind 25% des gesamten Arbeitsspeichers belegt und die RAM-Auslastung hat sich die ganze Zeit langsam erhöht, jetzt sind es 700 MB.
Oder gibt es eine Möglichkeit, einen Prozess so zu steuern, dass festplattenzugeordneter RAM verwendet wird, sodass viel mehr zur Verfügung steht und kein System-RAM verwendet wird?
Ich verwende CentOS 6.