Eines der wichtigsten Beispiele für die Demonstration der Leistungsfähigkeit von MapReduce ist der Terasort-Benchmark . Ich habe Probleme, die Grundlagen des in der MapReduce-Umgebung verwendeten Sortieralgorithmus zu verstehen.
Für mich bedeutet das Sortieren einfach, die relative Position eines Elements in Bezug auf alle anderen Elemente zu bestimmen. Beim Sortieren wird also "alles" mit "alles" verglichen. Ihr durchschnittlicher Sortieralgorithmus (schnell, Blase, ...) erledigt dies einfach auf intelligente Weise.
In meinen Augen bedeutet das Aufteilen des Datensatzes in viele Teile, dass Sie ein einzelnes Teil sortieren können und diese Teile dann noch in den vollständig sortierten Datensatz "vollständig" integrieren müssen. Angesichts des Terabyte-Datensatzes, der auf Tausende von Systemen verteilt ist, erwarte ich, dass dies eine große Aufgabe ist.
Wie wird das wirklich gemacht? Wie funktioniert dieser MapReduce-Sortieralgorithmus?
Danke, dass du mir geholfen hast zu verstehen.