Übertragen Sie 10 TB an Dateien aus den USA in das britische Rechenzentrum


96

Ich migriere meinen Server von einem Rechenzentrum in ein anderes von den USA nach Großbritannien. Mein Gastgeber sagte, ich sollte in der Lage sein, 11 Megabyte pro Sekunde zu erreichen.

Das Betriebssystem ist Windows Server 2008 an beiden Enden.

Meine durchschnittliche Dateigröße beträgt ca. 100 MB und die Daten werden auf fünf 2-TB-Laufwerke aufgeteilt.

Was wäre der empfohlene Weg, um diese Dateien zu übertragen?

  • FTP
  • SMB
  • Rsync / Robocopy
  • Andere?

Ich mache mir keine Sorgen um die Sicherheit, da es sich sowieso um öffentliche Dateien handelt, aber ich möchte nur eine Lösung, die die volle Übertragungsrate von 11 MB / s erreichen kann, um die Gesamtübertragungszeit zu minimieren.


19
11 MB / s oder 11 MB / s?
4.

14
Übertragen Sie die Daten auf binäre Lochkarte und verwenden Sie eine Brieftaube :)
enterzero

9
Sie sollten Details angeben. Wie viele Brieftauben würde es Ihrer Meinung nach brauchen? Zeigen Sie Ihre Arbeit.
Evik James

18
@Evik Europäer oder Afrikaner?
wim

8
Abgesehen davon ist Wolfram Alpha die bequemste Berechnungsmethode: "10 TB bei 11 MB / s". wolframalpha.com/input/?i=10+TB+at+11MB%2Fs
Kugelfisch

Antworten:


173

Versenden Sie stattdessen Festplatten über den Ozean.

Bei 11 Mbit / s und voller Auslastung haben Sie nur knapp 90 Tage Zeit, um 10 TB zu übertragen.


11 MBit / s = 1,375 MBit / s = 116,015 GB / Tag .

10240 GB / 116,015 GB / Tag = ~ 88,3 Tage .


42
+1 für Sneakernet . Außerdem haben Sie den TCP / IP-Overhead vergessen. Es ist mehr wie ~ 100 Tage unter idealen Umständen.
Chris S

43
Ein weiser Mann sagte einmal: "Unterschätze niemals die Bandbreite eines Kombis voller Bänder, die die Autobahn entlang rasen." Diese Gleichung ist sehr zutreffend und wird durch den Wechsel des Kombis für ein Boot nicht wesentlich geändert. ( bpfh.net/sysadmin/never-underestimate-bandwidth.html )
Rob Moir

5
Es ist besser, Bänder oder Blu-ray-Disks zu versenden, als Laufwerke. Wenn Sie mit Laufwerken unterwegs sind, stellen Sie sicher, dass die Originale für alle Fälle sicher und verfügbar sind. Ich würde mich selbst für die Laufwerke entscheiden (es sei denn, ich hätte Ultrium 4-Laufwerke), weil 10 TB = 410 Single-Layer-Blu-ray-Festplatten!
Allen

9
Ich habe gerade gemerkt, dass ich 11 MBit / s eingegeben habe, was ich aber eigentlich mit 11 MBit / s gemeint habe. Ich nehme an, das macht einen ziemlich großen Unterschied, meine Berechnungen haben es auf ca. 11-14 Tage gebracht ... ist das richtig?
Paul Hinett

18
Ich bin immer noch der Meinung, dass ein Mitarbeiter die 10-TB-Sicherung überwacht, während die offizielle Festplatte noch funktioniert. Sobald die Einrichtung abgeschlossen ist, können Sie einen Rsync-Vorgang durchführen, um den neuen Server auf etwaige Änderungen zu aktualisieren. Sie würden Ihre Maschine in etwa einem Tag einsatzbereit haben.
Loïc Faure-Lacroix

26

Ich würde sagen rsync, bei 11 MB / s sehen Sie 10-14 Tage und selbst wenn Sie unterbrochen werden, startet rsync leicht dort, wo es das letzte Mal gestoppt hat.

Bei 11 Mbit / s würde ich die Festplatten wie oben vorgeschlagen ausliefern :)


1
Ihre Schätzung unterscheidet sich sehr stark von der, die andere veröffentlicht haben (und ich weiß nicht, wer richtig ist). Können Sie Ihre Methodik für die Ermittlung dieser Zahlen angeben?
John Gardeniers

9
Der Unterschied ergibt sich aus der falschen Angabe von 11 MBit / s im OP, obwohl er 11 MBit / s meinte - was 8-mal schneller ist. Übrigens wird ein Neustart von 10 TB rsync im Falle einer Unterbrechung wahrscheinlich eine Weile dauern, nicht wahr? Stunden oder länger?
Frank Farmer

@FrankFarmer: Ich würde mir keine Sorgen um einen Neustart von Rsync machen. Ich verwalte eine externe Kopie von ~ 20 TB über eine drahtlose 30-Mbit / s-Leitung, und der Neustart erfolgt im Sekundenbereich. Die erste Kopie dauerte ein paar Wochen, aber das nächtliche Update dauert normalerweise ein paar Stunden.
Javier

@FrankFarmer - rsync scheint sehr gut zu skalieren. Ich habe ~ 2 TB über eine ländliche ADSL1-Leitung, die mit Sneakernet initialisiert wurde, benötige aber ~ 5 Minuten, um jede Nacht eine Synchronisierung durchzuführen, wenn sich nichts geändert hat.
Flexo

6
Die Zeitspanne für den Neustart von rsync hängt von der Anzahl der Dateien ab ( statnach meiner Erfahrung hauptsächlich von der Zeit), nicht von den Gesamtdaten. Ich würde keine nennenswerte Wartezeit erwarten (höchstens einige Minuten). Obwohl meine Erfahrung mit Rsync Tops bei etwas unter 5 TB.
Derobert

15

Rsync natürlich.

Zumindest kannst du nach einer Pause jederzeit weitermachen, und das ohne Schmerzen.


7
Ab 3 Monaten bei 100% Auslastung zu kopieren. Tut mir leid, aber das ist eine schreckliche Art, so viele Daten zu übertragen.
Chris S

Ich muss mit @ChrisS einverstanden sein, es rsyncist nicht effizient , nur große Dateien zu kopieren. Für meine Sachen habe ich entweder tarover netcatoder sshfür die Erstübertragung verwendet. Es ist viel schneller und beginnt sofort mit der Übertragung. Dabei rsyncwerden zuerst alle Dateien gescannt, was einige Zeit in Anspruch nimmt. Wenn dies unterbrochen wird, können Sie es später noch verwenden rsync. In der Tat mache ich dies manchmal tartrotzdem nach, um sicherzustellen, dass alle Berechtigungen, Socket-Dateien usw. korrekt sind.
Martin Scharrer

1
Nachdem das OP korrigiert hat, dass er eine ~ 100 MB-Verbindung hat, nicht 11 MB, ist rsync viel sinnvoller. +1 für die ersten, die es erwähnen.
Chris S

12

Unterschätzen Sie niemals die Bandbreite eines Kombis voller Bänder

- Trad.

In Ihrem Fall werden Disketten oder Bänder per Kurier verschickt, aber das Prinzip gilt immer noch. Wenn Sie sich keine Gedanken über die Latenz machen, ist dies erheblich billiger als die Netzwerkbandbreite, um 10 TB Daten in einem angemessenen Zeitraum zu übertragen.


Jeff Atwood lief die Zahlen in einem seiner alten Coding Horror Beiträge .. codinghorror.com/blog/2007/02/the-economics-of-bandwidth.html
tardate

10

Sie sollten rsync verwenden. Es komprimiert die Daten und dupliziert sie vor dem Senden. Es kann auch Teilübertragungen wieder aufnehmen, was für große Übertragungen sehr wichtig ist.

Es ist wahrscheinlich, dass 10 TB nicht übertragen werden. Wenn es sich um Protokolle und Text handelt, kann dies unter 1 TB liegen. vielleicht weit unter 1 TB.

Es gibt Tools, die eine bessere Komprimierung als rsync erzielen und wahrscheinlich mehr Übereinstimmungen finden. Sie könnten verwenden lrzip, etc.

Es gibt bestimmte Datentypen, die nicht gut komprimiert werden und keine wörtlichen Dupes enthalten, z. B. Videos und andere Medien. In diesen Fällen machen FTP und rsync fast den gleichen Aufwand.


3
RSync dedupliziert Daten? Ich denke, dies geschieht nur auf Dateiebene, was bedeutet, dass die Deduplizierung in diesem Fall meistens unbrauchbar ist.
Devicenull

6

Ich weiß, dass dies bereits akzeptiert wird, aber haben Sie darüber nachgedacht, Ihre Festplatten zu einem Rechenzentrum / Provider / Host zu bringen, wo Sie mehr Bandbreite erhalten können? Es kostet Sie wahrscheinlich etwas Geld, aber das Kopieren von 10240 GB auf Sicherungsdisketten und das Senden von kostet Zeit und Geld (2 x Geld).

Außerdem können Sie sicher sein, dass Ihre Festplatten den Transport nicht unterbrechen.


Wie unterscheidet sich diese Antwort von der akzeptierten Antwort?
Chris S

2
@Chris Diese Antwort schlägt vor, die Festplatten zu einem größeren Rohr auf demselben Kontinent zu transportieren.
Alex Jasmin

5

11 Mbit / s? Dies ist eine ziemliche Einschränkung, die Sie hier haben. In deiner Situation würde ich einfach:

  • Klonen Sie die Daten
  • Komprimiere es
  • Mieten Sie Server an beiden Enden mit mindestens zehnmal mehr Bandbreite (in denselben Rechenzentren oder an Ihrem Ende in einem Rechenzentrum in Ihrer Nähe).
  • Übertragen Sie die Dateien
  • Übernehmen Sie die Daten auf den neuen Server.

Wenn Sie wirklich keine Lösung haben, um die Bandbreite zu erhöhen, ist der Versand eines physischen Laufwerks viel schneller.

Aus meiner schmerzhaften Erfahrung neigen Festplatten dazu, die Post zu beschädigen ... USB-Sticks sind eine bessere Lösung für häufige Datenübertragungen. In Ihrem Fall wären einige erforderlich :) Senden Sie also 2 Kopien Ihrer Daten auf mehrere Festplatten.

In Anbetracht der Datenmenge, die Sie haben, können Sie auch Laufwerke von einem RAID 5- oder RAID 6-Array senden, wenn Sie auf der anderen Seite dieselbe Hardware / Software zum Anschließen Ihrer Laufwerke haben. In diesem Fall müssen Sie jedoch die Reihenfolge Ihrer Laufwerke angeben und ihre Seriennummern, damit sie bei der Neukonfiguration nicht durcheinander geraten.


1
Entschuldigung, die 11Mbps waren ein Fehler, es sind 11MB / s ... ich habe in einem der obigen Kommentare erwähnt.
Paul Hinett

4

Während ich mich in diesem Fall auf die Antwort "Versand über Festplatten" einigen muss, verwende ich hier eine Kopierlösung, wenn ich zum ersten Mal große Mengen von Dateien kopieren muss:

Es rsyncist zwar gut, zwei Datenspeicher synchron zu halten, es verursacht jedoch eine Menge unnötigen Overhead für die anfängliche Übertragung. Ich dachte mir, dass der schnellste Weg der ist, zu tardem weitergeleitet wird netcat. Auf der Empfängerseite können Sie auch netcatim Listen- Modus die eingehenden Daten einer Extraktion zuführen tar. Der Vorteil besteht darin, dass das tarSenden sofort beginnt und netcatals einfacher TCP-Stream ohne zusätzlichen Protokollaufwand auf höherer Ebene gesendet wird. Dies sollte so schnell wie möglich sein. Es ist jedoch nicht einfach möglich, eine unterbrochene Übertragung an der letzten Position neu zu starten.

Es ist auch einfach möglich, die Daten für die Übertragung zu komprimieren, indem Sie die richtigen tarOptionen verwenden oder ein Komprimierungswerkzeug in die Pipes einfügen. Beachten Sie, dass netcatdas Datum unverschlüsselt gesendet wird. In Fällen, in denen dies nicht möglich ist, sshkann stattdessen eine verschlüsselte Verbindung verwendet werden ( tar <options> | ssh <target> -c 'tar -x <options>').

Wenn alle Daten übertragen werden, rsynckönnen Sie sicherstellen, dass alle zwischenzeitlich aktualisierten Dateien synchronisiert werden. Auch IIRC erstellt tarkeine Sockets, die sonst verloren gehen, aber sie werden sowieso nicht wirklich für Datencenter-Daten verwendet.


Der Nachteil ist, dass es keine Unterbrechungen toleriert
Joel Coel

3

Haben Sie an IPoAC gedacht ?

Eine einzelne Taube kann möglicherweise in einer Stunde Dutzende von Gigabyte an Daten transportieren, was im Vergleich zu den aktuellen ADSL-Standards im Durchschnitt eine sehr günstige Bandbreite darstellt, selbst wenn der Verlust von Laufwerken berücksichtigt wird.


21
Tauben würden bei der vom OP beschriebenen Entfernung einen Signalverlust erleiden.
Roy Tinker

@RoyTinker Cleared IPoAC muss mithilfe eines Fensterprozesses implementiert werden.
JamesBarnett

3

Wieder ist der erste Vorschlag, die Laufwerke zu versenden.

Der zweite Vorschlag ist, rsync für rsyncd zu verwenden, nicht über SSH. Ich habe viele Dinge ausprobiert und es ist normalerweise das schnellste. Denken Sie daran, die Komprimierung zu aktivieren. Sehen Sie sich auch an, wie Sie die Größe des Rsync-Puffers erhöhen oder verringern , um die optimale Übertragungsrate zu erhalten. Es kann auch hilfreich sein, die MTU-Größe zu erhöhen . Dies hilft nur, wenn Router unterwegs Ihre Pakete nicht fragmentieren. Es gibt Möglichkeiten, um festzustellen, ob dies der Fall ist.

Leider gibt es keine Einstellung, die immer die beste ist. Sie müssen experimentieren, um herauszufinden, was in Ihrer Situation am besten funktioniert.


2

Sie haben erwähnt, dass auf den Servern Windows 2008 ausgeführt wird. Wäre Microsoft DFS geeignet? Am unteren Ende befindet sich etwas Magie, die versucht, so viel Bandbreite wie möglich aus der Verbindung herauszuholen, und außerdem über Komprimierung und Deduplizierung (IIRC) verfügt.

Wohlgemerkt, Festplatten, DVDs oder Blu-Rays wären schneller ... Meine Berechnung beträgt 11 Tage bei vollen 11 MB / s ...


1

Sie können dafür einen Torrent verwenden.

Erstellen Sie einen privaten Torrent an einem Ende und verwenden Sie den Client am anderen Ende.

Obwohl eine Verschlüsselung vorhanden ist, müssen Sie dies anhand Ihrer Anforderungen überprüfen.


1
Eine 1-zu-1-Torrent-Beziehung ist nicht besser als eine 1-zu-1-Dateiübertragung. Wenn es zwischen den beiden Standorten nur eine begrenzte Rohrleitung gibt, benötigen Sie mehrere Sämaschinen auf verschiedenen Rohren, die idealerweise geografisch verteilt sind.
Jeremy

@ Jeremy - es ist nicht besser oder schlechter in Bezug auf den Durchsatz. Es kann in Bezug auf Zuverlässigkeit (einfache Pause / Wiederaufnahme) besser sein, die für diese Größe xfer wichtig sein könnte
Joel Coel
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.