Programmierung hadoop

4

Wie funktioniert der MapReduce-Sortieralgorithmus?

Eines der wichtigsten Beispiele für die Demonstration der Leistungsfähigkeit von MapReduce ist der Terasort-Benchmark . Ich habe Probleme, die Grundlagen des in der MapReduce-Umgebung verwendeten Sortieralgorithmus zu verstehen. Für mich bedeutet das Sortieren einfach, die relative Position eines Elements in Bezug auf alle anderen Elemente zu bestimmen. Beim Sortieren wird …

110 algorithm sorting parallel-processing hadoop mapreduce

6

Was ist der Unterschied zwischen den Shell-Befehlen "hadoop fs" und den Shell-Befehlen "hdfs dfs"?

Sollen sie gleich sein? Aber warum hadoop fszeigen die Befehle " " die, hdfs fileswährend die hdfs dfsBefehle " " die lokalen Dateien anzeigen? Hier sind die Informationen zur Hadoop-Version: Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git: //ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1 / source -r Zusammengestellt von Jenkins am Montag, 22. April, 10:48:26 PDT 2013

109 hadoop hdfs

15

Fehler beim Auffinden der Winutils-Binärdatei im Hadoop-Binärpfad

Beim Starten von namenode für die neueste Version von hadoop-2.2 wird die folgende Fehlermeldung angezeigt. Ich habe die Datei winutils exe nicht im Ordner hadoop bin gefunden. Ich habe unten Befehle ausprobiert $ bin/hdfs namenode -format $ sbin/yarn-daemon.sh start resourcemanager ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to locate the winutils …

108 hadoop

15

Gibt es ein .NET-Äquivalent zu Apache Hadoop? [geschlossen]

Geschlossen. Diese Frage entspricht nicht den Richtlinien für Stapelüberlauf . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Stack - Überlauf. Geschlossen vor 4 Jahren . Verbessere diese Frage Also habe ich Hadoop mit großem Interesse angesehen, und …

98 c# .net hadoop mapreduce

18

hadoop Kein Dateisystem für Schema: Datei

Ich versuche, eine einfache NaiveBayesClassiferVerwendung von Hadoop auszuführen, wobei dieser Fehler auftritt Exception in thread "main" java.io.IOException: No FileSystem for scheme: file at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1375) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1390) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:196) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:95) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:180) at org.apache.hadoop.fs.Path.getFileSystem(Path.java:175) at org.apache.mahout.classifier.naivebayes.NaiveBayesModel.materialize(NaiveBayesModel.java:100) Code: Configuration configuration = new Configuration(); NaiveBayesModel model = NaiveBayesModel.materialize(new Path(modelPath), configuration);// …

96 java hadoop io

10

Wie kann man die Größe eines HDFS-Verzeichnisses überprüfen?

Ich kenne du -shin gängigen Linux-Dateisystemen. Aber wie geht das mit HDFS?

96 hadoop command-line directory hdfs

10

Kann Apache Spark ohne Hadoop laufen?

Gibt es Abhängigkeiten zwischen Spark und Hadoop ? Wenn nicht, gibt es Funktionen, die ich vermissen werde, wenn ich Spark ohne Hadoop ausführe ?

88 hadoop amazon-s3 apache-spark mapreduce mesos

7

Avro gegen Parkett

Ich plane, eines der Hadoop-Dateiformate für mein Hadoop-Projekt zu verwenden. Ich verstehe, dass Parkett effizient für spaltenbasierte Abfragen und avro für den vollständigen Scan ist oder wenn wir alle Spaltendaten benötigen! Bevor ich fortfahre und eines der Dateiformate auswähle, möchte ich verstehen, welche Vor- und Nachteile eines gegenüber dem anderen …

87 hadoop avro parquet

5

Parkett gegen ORC gegen ORC mit Snappy

Ich führe einige Tests mit den mit Hive verfügbaren Speicherformaten durch und verwende Parkett und ORC als Hauptoptionen. Ich habe ORC einmal mit Standardkomprimierung und einmal mit Snappy aufgenommen. Ich habe viele Dokumente gelesen, in denen angegeben ist, dass Parkett im Vergleich zu ORC eine bessere zeitliche / räumliche Komplexität …

87 hadoop hive parquet snappy orc

25

Woher kennen Sie die Hive- und Hadoop-Versionen an der Eingabeaufforderung?

Wie kann ich an der Eingabeaufforderung herausfinden, welche Hive-Version ich verwende? Unten ist die Details- Ich verwende Putty, um eine Verbindung zur Hive-Tabelle herzustellen und auf Datensätze in den Tabellen zuzugreifen. Also habe ich Putty geöffnet und in den Hostnamen, den ich eingegeben habe, geklickt leo-ingesting.vip.name.comund dann geklickt Open. Und …

86 hadoop hive

3

Datenverarbeitung in großem Maßstab Hbase vs Cassandra [geschlossen]

Diese Frage passt derzeit nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich zu Debatten, Argumenten, Umfragen oder erweiterten Diskussionen führen. Wenn Sie der Meinung sind, dass diese Frage verbessert und möglicherweise erneut geöffnet werden kann, …

84 nosql hadoop cassandra hbase data-processing

28

Verbindung zum Host localhost Port 22 herstellen: Verbindung abgelehnt

Während der Installation von Hadoop auf meinem lokalen Computer wurde der folgende Fehler angezeigt ssh -vvv localhost OpenSSH_5.5p1, OpenSSL 1.0.0e-fips 6 Sep 2011 debug1: Reading configuration data /etc/ssh/ssh_config debug1: Applying options for * debug2: ssh_connect: needpriv 0 debug1: Connecting to localhost [127.0.0.1] port 22. debug1: connect to address 127.0.0.1 port …

82 linux hadoop ssh

8

Wann beginnen reduzierte Aufgaben in Hadoop?

Wann beginnen in Hadoop reduzierte Aufgaben? Beginnen sie, nachdem ein bestimmter Prozentsatz (Schwellenwert) der Mapper abgeschlossen ist? Wenn ja, ist dieser Schwellenwert festgelegt? Welche Art von Schwelle wird normalerweise verwendet?

81 hadoop mapreduce reduce

7

Der Container läuft über die Speichergrenzen hinaus

In Hadoop v1 habe ich jedem 7-Mapper- und Reduzierer-Steckplatz eine Größe von 1 GB zugewiesen. Meine Mapper und Reduzierer funktionieren einwandfrei. Mein Computer hat 8G Speicher, 8 Prozessor. Bei YARN wurde beim Ausführen derselben Anwendung auf demselben Computer ein Containerfehler angezeigt. Standardmäßig habe ich folgende Einstellungen: <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1024</value> </property> …

81 hadoop mapreduce yarn mrv2

18

Wie gebe ich die Ergebnisse einer HiveQL-Abfrage an CSV aus?

Wir möchten die Ergebnisse einer Hive-Abfrage in eine CSV-Datei einfügen. Ich dachte, der Befehl sollte so aussehen: insert overwrite directory '/home/output.csv' select books from table; Wenn ich es ausführe, heißt es, dass es erfolgreich abgeschlossen wurde, aber ich kann die Datei nie finden. Wie finde ich diese Datei oder sollte …

79 database hadoop hive hiveql

Als «hadoop» getaggte Fragen