Wir haben eine Ordnerstruktur in unserem Intranet, die ungefähr 800.000 Dateien enthält, die in ungefähr 4.000 Ordner aufgeteilt sind. Wir müssen dies mit einer kleinen Gruppe von Maschinen in unseren DMZs synchronisieren. Die Tiefe der Struktur ist sehr flach (sie übersteigt niemals zwei Ebenen).
Die meisten Dateien ändern sich nie, jeden Tag gibt es ein paar tausend aktualisierte Dateien und 1-2 tausend neue Dateien. Bei den Daten handelt es sich um historische Berichtsdaten, die dort aufbewahrt werden, wo die Quelldaten gelöscht wurden (dh es handelt sich um abgeschlossene Berichte, für die die Quelldaten so alt sind, dass wir sie archivieren und löschen). Eine einmalige Synchronisierung pro Tag ist ausreichend, da dies in einem angemessenen Zeitraum erfolgen kann. Berichte werden über Nacht generiert und wir synchronisieren als Erstes morgens als geplante Aufgabe.
Da sich so wenige Dateien regelmäßig ändern, können wir natürlich von inkrementellen Kopien erheblich profitieren. Wir haben Rsync ausprobiert, aber es kann bis zu acht bis zwölf Stunden dauern, bis der Vorgang "Dateiliste erstellen" abgeschlossen ist. Es ist klar, dass wir schnell wachsen, wozu rsync fähig ist (der 12-Stunden-Zeitrahmen ist viel zu lang).
Wir haben ein anderes Tool namens RepliWeb verwendet, um die Strukturen zu synchronisieren, und es kann eine inkrementelle Übertragung in etwa 45 Minuten durchführen. Es scheint jedoch, dass wir das Limit überschritten haben. Dateien werden als Löschvorgänge angezeigt, wenn dies nicht der Fall ist (möglicherweise ist eine interne Speicherstruktur erschöpft, wir sind uns nicht sicher).
Hat jemand anderes ein großes Synchronisationsprojekt dieser Art erlebt? Gibt es etwas, das entwickelt wurde, um massive Dateistrukturen wie diese für die Synchronisation zu handhaben?