Als «apache-spark» getaggte Fragen

Apache Spark ist eine in Scala geschriebene Open Source-Engine für verteilte Datenverarbeitung, die Benutzern eine einheitliche API und verteilte Datensätze bietet. Anwendungsfälle für Apache Spark beziehen sich häufig auf maschinelles / tiefes Lernen und die Grafikverarbeitung.


12
java.io.IOException: Die ausführbare Datei null \ bin \ winutils.exe konnte in den Hadoop-Binärdateien nicht gefunden werden. Funkenfinsternis unter Windows 7
Ich kann keinen einfachen sparkJob in Scala IDE(Maven Spark-Projekt) ausführen, auf dem installiert istWindows 7 Die Spark-Core-Abhängigkeit wurde hinzugefügt. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Error: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: …


5
Spark DataFrame groupBy und sortiere in absteigender Reihenfolge (pyspark)
Ich verwende pyspark (Python 2.7.9 / Spark 1.3.1) und habe einen Datenrahmen GroupObject, den ich in absteigender Reihenfolge filtern und sortieren muss. Der Versuch, dies über diesen Code zu erreichen. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Es wird jedoch der folgende Fehler ausgegeben. sort() got an unexpected keyword argument 'ascending'

18
Wie setze ich die Python-Version des Treibers auf Funken?
Ich verwende Spark 1.4.0-rc2, damit ich Python 3 mit Spark verwenden kann. Wenn ich export PYSPARK_PYTHON=python3meiner .bashrc-Datei hinzufüge , kann ich spark interaktiv mit Python 3 ausführen. Wenn ich jedoch ein eigenständiges Programm im lokalen Modus ausführen möchte, wird folgende Fehlermeldung angezeigt: Exception: Python in worker has different version 3.4 …



11
Mac Spark-Shell Fehler beim Initialisieren von SparkContext
Ich habe versucht, spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) unter Mac OS Yosemite 10.10.5 mit zu starten "./bin/spark-shell". Es hat den Fehler unten. Ich habe auch versucht, verschiedene Versionen von Spark zu installieren, aber alle haben den gleichen Fehler. Dies ist das zweite Mal, dass ich Spark ausführe. Mein vorheriger Lauf funktioniert gut. …



8
Warum schlagen Spark-Jobs mit org.apache.spark.shuffle.MetadataFetchFailedException fehl: Fehlender Ausgabeort für Shuffle 0 im Spekulationsmodus?
Ich führe einen Spark-Job mit in einem Spekulationsmodus aus. Ich habe ungefähr 500 Aufgaben und ungefähr 500 Dateien mit 1 GB gz komprimiert. Ich bekomme in jedem Job für 1-2 Aufgaben den angehängten Fehler, bei dem er dutzende Male wiederholt wird (wodurch verhindert wird, dass der Job abgeschlossen wird). org.apache.spark.shuffle.MetadataFetchFailedException: …

8
Wie übergebe ich -D Parameter oder Umgebungsvariable an Spark Job?
Ich möchte die typesichere Konfiguration eines Spark-Jobs in einer dev / prod-Umgebung ändern . Es scheint mir, dass der einfachste Weg, dies zu erreichen, darin besteht, -Dconfig.resource=ENVNAMEauf den Job überzugehen. Dann erledigt die Typesafe-Konfigurationsbibliothek die Arbeit für mich. Gibt es eine Möglichkeit, diese Option direkt an den Job zu übergeben? …

3
Wie funktioniert HashPartitioner?
Ich habe die Dokumentation von gelesen HashPartitioner. Leider wurde außer den API-Aufrufen nicht viel erklärt. Ich gehe davon aus, dass HashPartitionerdie verteilte Menge basierend auf dem Hash der Schlüssel partitioniert wird. Zum Beispiel, wenn meine Daten wie sind (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Der Partitionierer würde dies also in …

8
So löschen Sie Spalten im pyspark-Datenrahmen
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Es gibt zwei id: bigintund ich möchte einen löschen. Wie kann ich?


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.