Programmierung hadoop

21

Hadoop-Warnung "Native-Hadoop-Bibliothek für Plattform kann nicht geladen werden"

Ich konfiguriere derzeit Hadoop auf einem Server, auf dem CentOs ausgeführt werden . Wenn ich start-dfs.shoder stop-dfs.shstarte, wird folgende Fehlermeldung angezeigt: WARN util.NativeCodeLoader: Native-Hadoop-Bibliothek für Ihre Plattform kann nicht geladen werden. Verwenden Sie gegebenenfalls integrierte Java-Klassen Ich verwende Hadoop 2.2.0. Bei einer Online-Suche wurde der folgende Link aufgerufen : http://balanceandbreath.blogspot.ca/2013/01/utilnativecodeloader-unable-to-load.html …

269 java linux hadoop hadoop2 java.library.path

19

Unterschied zwischen Schwein und Bienenstock? Warum beides? [geschlossen]

Geschlossen . Diese Frage basiert auf Meinungen . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Verbessere diese Frage Mein Hintergrund - 4 Wochen …

256 hadoop hive apache-pig

8

Apache Spark: Die Anzahl der Kerne im Vergleich zur Anzahl der Ausführenden

Ich versuche, die Beziehung zwischen der Anzahl der Kerne und der Anzahl der Ausführenden zu verstehen, wenn ein Spark-Job auf YARN ausgeführt wird. Die Testumgebung ist wie folgt: Anzahl der Datenknoten: 3 Datenknoten-Maschinenspezifikation: CPU: Core i7-4790 (Anzahl der Kerne: 4, Anzahl der Threads: 8) RAM: 32 GB (8 GB x …

192 hadoop apache-spark yarn

16

Wann sollten Hadoop, HBase, Hive und Pig verwendet werden?

Was sind die Vorteile von entweder mit Hadoop oder HBase oder Hive ? Nach meinem Verständnis vermeidet HBase die Verwendung von Map-Reduce und verfügt über einen spaltenorientierten Speicher über HDFS. Hive ist eine SQL-ähnliche Oberfläche für Hadoop und HBase . Ich würde auch gerne wissen, wie Hive mit Pig verglichen …

185 hadoop hbase hive apache-pig

15

Wie deaktiviere ich die INFO-Anmeldung in Spark?

Ich habe Spark mithilfe des AWS EC2-Handbuchs installiert und kann das Programm mithilfe des bin/pysparkSkripts problemlos starten, um zur Spark-Eingabeaufforderung zu gelangen. Außerdem kann ich den Schnellstart erfolgreich ausführen. Ich kann jedoch für mein ganzes Leben nicht herausfinden, wie die gesamte ausführliche INFOProtokollierung nach jedem Befehl gestoppt werden kann . …

143 python scala apache-spark hadoop pyspark

14

Spark - CSV-Datei als DataFrame laden?

Ich möchte eine CSV in Spark lesen und als DataFrame konvertieren und in HDFS mit speichern df.registerTempTable("table_name") Ich habe versucht: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Fehler, den ich bekommen habe: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …

140 scala apache-spark hadoop apache-spark-sql hdfs

3

Was sind die Vor- und Nachteile des Parkettformats im Vergleich zu anderen Formaten?

Eigenschaften von Apache Parkett sind: Selbstbeschreibend Spaltenformat Sprachunabhängig Im Vergleich zu Avro, Sequence Files, RC File etc. möchte ich einen Überblick über die Formate. Ich habe bereits gelesen: Wie Impala mit Hadoop-Dateiformaten funktioniert , gibt es einige Einblicke in die Formate, aber ich möchte wissen, wie der Zugriff auf Daten …

136 file hadoop hdfs avro parquet

8

So kopieren Sie Dateien von HDFS in das lokale Dateisystem

So kopieren Sie Dateien von HDFS in das lokale Dateisystem. Es gibt keinen physischen Speicherort einer Datei unter der Datei, nicht einmal ein Verzeichnis. Wie kann ich sie für weitere Validierungen zu meinem lokalen verschieben? Ich werde durch Winscp versucht.

135 hadoop copy hdfs

6

Unterschied zwischen HBase und Hadoop / HDFS

Dies ist eine naive Frage, aber ich bin neu im NoSQL-Paradigma und weiß nicht viel darüber. Wenn mir jemand helfen kann, den Unterschied zwischen HBase und Hadoop klar zu verstehen, oder wenn ich einige Hinweise gebe, die mir helfen könnten, den Unterschied zu verstehen. Bis jetzt habe ich einige Nachforschungen …

130 hadoop nosql hbase hdfs difference

8

Was ist der Unterschied zwischen dem Partitionieren und Bucketing einer Tabelle in Hive?

Ich weiß, dass beide für eine Spalte in der Tabelle ausgeführt werden, aber wie unterscheidet sich jede Operation?

129 hadoop hive

13

Verketten mehrerer MapReduce-Jobs in Hadoop

In vielen realen Situationen, in denen Sie MapReduce anwenden, bestehen die endgültigen Algorithmen aus mehreren MapReduce-Schritten. dh Map1, Reduce1, Map2, Reduce2 und so weiter. Sie haben also die Ausgabe der letzten Reduzierung, die als Eingabe für die nächste Karte benötigt wird. Die Zwischendaten möchten Sie (im Allgemeinen) nicht behalten, sobald …

124 hadoop mapreduce

9

Der Namensknoten befindet sich im abgesicherten Modus. Nicht in der Lage zu gehen

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. in hdfs nichts erstellen können Ich tat root# bin/hadoop fs -safemode leave Aber zeigen safemode: Unknown command Was ist das Problem? Lösung

122 hadoop hdfs

6

Wie werden Hadoop-Prozessdatensätze über Blockgrenzen hinweg aufgeteilt?

Laut dem Hadoop - The Definitive Guide Die von FileInputFormats definierten logischen Datensätze passen normalerweise nicht genau in HDFS-Blöcke. Beispielsweise sind die logischen Datensätze eines TextInputFormat Zeilen, die häufig HDFS-Grenzen überschreiten. Dies hat keinen Einfluss auf die Funktionsweise Ihres Programms - Zeilen werden beispielsweise nicht übersehen oder unterbrochen -, aber …

119 hadoop split mapreduce block hdfs

9

Was ist der Zweck der Misch- und Sortierphase im Reduzierer in der Map Reduce-Programmierung?

In der Map Reduce-Programmierung hat die Reduktionsphase das Mischen, Sortieren und Reduzieren als Unterteile. Sortieren ist eine kostspielige Angelegenheit. Was ist der Zweck der Misch- und Sortierphase im Reduzierer in der Map Reduce-Programmierung?

113 sorting hadoop mapreduce hdfs shuffle

18

Unterschied zwischen internen und externen Hive-Tabellen?

Kann mir jemand den Unterschied zwischen der externen und der internen Tabelle von Hive erklären? Ich weiß, dass der Unterschied beim Ablegen des Tisches entsteht. Ich verstehe nicht, was Sie unter Daten verstehen, und Metadaten werden in internen und nur Metadaten in externen Tabellen gelöscht. Kann mir jemand bitte Knoten …

110 hadoop hive hiveql

Als «hadoop» getaggte Fragen