Als «apache-spark» getaggte Fragen

Apache Spark ist eine in Scala geschriebene Open Source-Engine für verteilte Datenverarbeitung, die Benutzern eine einheitliche API und verteilte Datensätze bietet. Anwendungsfälle für Apache Spark beziehen sich häufig auf maschinelles / tiefes Lernen und die Grafikverarbeitung.

19
Pyspark in Python-Shell importieren
Dies ist eine Kopie der Frage eines anderen in einem anderen Forum, die nie beantwortet wurde. Daher dachte ich, ich würde sie hier erneut stellen, da ich das gleiche Problem habe. (Siehe http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Ich habe Spark ordnungsgemäß auf meinem Computer installiert und kann Python-Programme mit den pyspark-Modulen fehlerfrei ausführen, …

12
Laden Sie die CSV-Datei mit Spark
Ich bin neu in Spark und versuche, CSV-Daten aus einer Datei mit Spark zu lesen. Folgendes mache ich: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Ich würde erwarten, dass dieser Aufruf mir eine Liste der beiden ersten Spalten meiner Datei gibt, aber ich erhalte folgende Fehlermeldung: File "<ipython-input-60-73ea98550983>", line 1, in …


8
So überschreiben Sie das Ausgabeverzeichnis in spark
Ich habe eine Spark-Streaming-Anwendung, die für jede Minute einen Datensatz erstellt. Ich muss die Ergebnisse der verarbeiteten Daten speichern / überschreiben. Beim Versuch, das Dataset org.apache.hadoop.mapred.FileAlreadyExistsException zu überschreiben, wird die Ausführung gestoppt. Ich habe die Spark-Eigenschaft festgelegt set("spark.files.overwrite","true"), aber es gibt kein Glück. Wie kann ich die Dateien von Spark …
106 apache-spark 


4
Spark Kill Laufende Anwendung
Ich habe eine laufende Spark-Anwendung, in der alle Kerne belegt sind, in denen meinen anderen Anwendungen keine Ressource zugewiesen wird. Ich habe einige schnelle Nachforschungen angestellt und die Leute schlugen vor, YARN kill oder / bin / spark-class zu verwenden, um den Befehl zu beenden. Ich verwende jedoch die CDH-Version …

14
So laden Sie eine lokale Datei in sc.textFile anstelle von HDFS
Ich folge dem großartigen Funken-Tutorial Also versuche ich um 46:00 Uhr, das zu laden, README.mdaber ich scheitere an dem, was ich tue, folgendes: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 …


5
So ändern Sie eine Dataframe-Spalte in pyspark vom Typ "String" in den Typ "Double"
Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgendes habe ich getan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Ich wollte nur wissen, ob dies der richtige Weg ist, da beim Durchlaufen der logistischen Regression ein Fehler auftritt. Ich …

10
Filtern Sie die Pyspark-Datenrahmenspalte mit dem Wert None
Ich versuche, einen PySpark-Datenrahmen mit einem Zeilenwert zu filtern None: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] und ich kann mit einem String-Wert richtig filtern: df[df.dt_mvmt == '2016-03-31'] # some results here aber das schlägt fehl: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Aber es gibt definitiv Werte für …


10
Wie richte ich Spark unter Windows ein?
Ich versuche, Apache Spark unter Windows einzurichten. Nachdem ich ein bisschen gesucht habe, verstehe ich, dass der Standalone-Modus das ist, was ich will. Welche Binärdateien lade ich herunter, um Apache Spark in Windows auszuführen? Ich sehe Distributionen mit Hadoop und CDH auf der Spark-Download-Seite. Ich habe keine Verweise im Web …


14
Spark - Fehler "In Ihrer Konfiguration muss eine Master-URL festgelegt sein" beim Senden einer App
Ich habe eine Spark-App, die im lokalen Modus problemlos ausgeführt wird, aber beim Senden an den Spark-Cluster einige Probleme hat. Die Fehlermeldung lautet wie folgt: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.