Als «mapreduce» getaggte Fragen

MapReduce ist ein Algorithmus zum Verarbeiten großer Datenmengen bei bestimmten Arten von verteilbaren Problemen unter Verwendung einer großen Anzahl von Knoten

Zusammenführen von Ausgabedateien nach der Reduzierungsphase

In mapreduce schreibt jede Reduzierungsaufgabe ihre Ausgabe in eine Datei mit dem Namen part-r-nnnnn, wobei nnnnn eine Partitions-ID ist, die der Reduktionsaufgabe zugeordnet ist. Führt Map / Reduce diese Dateien zusammen? Wenn ja, wie?

75 hadoop mapreduce

Zählen Sie Zeilen in großen Dateien

Ich arbeite normalerweise mit Textdateien mit einer Größe von ~ 20 GB und zähle sehr oft die Anzahl der Zeilen in einer bestimmten Datei. So wie ich es jetzt mache, ist es einfach cat fname | wc -lund es dauert sehr lange. Gibt es eine Lösung, die viel schneller wäre? …

71 linux mapreduce

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.

Licensed under cc by-sa 3.0 with attribution required.