In vielen realen Situationen, in denen Sie MapReduce anwenden, bestehen die endgültigen Algorithmen aus mehreren MapReduce-Schritten.
dh Map1, Reduce1, Map2, Reduce2 und so weiter.
Sie haben also die Ausgabe der letzten Reduzierung, die als Eingabe für die nächste Karte benötigt wird.
Die Zwischendaten möchten Sie (im Allgemeinen) nicht behalten, sobald die Pipeline erfolgreich abgeschlossen wurde. Auch weil diese Zwischendaten im Allgemeinen eine Datenstruktur haben (wie eine 'Karte' oder eine 'Menge'), möchten Sie nicht zu viel Aufwand beim Schreiben und Lesen dieser Schlüssel-Wert-Paare betreiben.
Was ist die empfohlene Vorgehensweise in Hadoop?
Gibt es ein (einfaches) Beispiel, das zeigt, wie mit diesen Zwischendaten richtig umgegangen wird, einschließlich der anschließenden Bereinigung?