MapReduce ist ein Algorithmus zum Verarbeiten großer Datenmengen bei bestimmten Arten von verteilbaren Problemen unter Verwendung einer großen Anzahl von Knoten
In mapreduce schreibt jede Reduzierungsaufgabe ihre Ausgabe in eine Datei mit dem Namen part-r-nnnnn, wobei nnnnn eine Partitions-ID ist, die der Reduktionsaufgabe zugeordnet ist. Führt Map / Reduce diese Dateien zusammen? Wenn ja, wie?
Ich arbeite normalerweise mit Textdateien mit einer Größe von ~ 20 GB und zähle sehr oft die Anzahl der Zeilen in einer bestimmten Datei. So wie ich es jetzt mache, ist es einfach cat fname | wc -lund es dauert sehr lange. Gibt es eine Lösung, die viel schneller wäre? …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.