Als «apache-spark» getaggte Fragen

Apache Spark ist eine in Scala geschriebene Open Source-Engine für verteilte Datenverarbeitung, die Benutzern eine einheitliche API und verteilte Datensätze bietet. Anwendungsfälle für Apache Spark beziehen sich häufig auf maschinelles / tiefes Lernen und die Grafikverarbeitung.



15
Wie verbinde ich PyCharm mit PySpark?
Ich bin neu mit Apache Spark und habe anscheinend Apache-Spark mit Homebrew in meinem MacBook installiert: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for more …

10
Spark Error - Nicht unterstützte Hauptversion der Klassendatei
Ich versuche, Spark auf meinem Mac zu installieren. Ich habe Home Brew verwendet, um Spark 2.4.0 und Scala zu installieren. Ich habe PySpark in meiner Anaconda-Umgebung installiert und verwende PyCharm für die Entwicklung. Ich habe in mein Bash-Profil exportiert: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export …


8
So verhindern Sie java.lang.OutOfMemoryError: PermGen-Speicherplatz bei der Scala-Kompilierung?
Ich habe ein seltsames Verhalten meines Scala-Compilers bemerkt. Beim Kompilieren einer Klasse wird gelegentlich ein OutOfMemoryError ausgelöst. Hier ist die Fehlermeldung: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space Error during sbt execution: java.lang.OutOfMemoryError: PermGen space Es kommt nur gelegentlich vor und der Fehler wird normalerweise beim nachfolgenden …

9
Wie kann man saveAsTextFile dazu bringen, die Ausgabe NICHT in mehrere Dateien aufzuteilen?
Wenn Sie Scala in Spark verwenden und die Ergebnisse mit verwenden saveAsTextFile, scheint die Ausgabe in mehrere Teile aufgeteilt zu werden. Ich übergebe nur einen Parameter (Pfad). val year = sc.textFile("apat63_99.txt").map(_.split(",")(1)).flatMap(_.split(",")).map((_,1)).reduceByKey((_+_)).map(_.swap) year.saveAsTextFile("year") Entspricht die Anzahl der Ausgänge der Anzahl der verwendeten Reduzierungen? Bedeutet dies, dass die Ausgabe komprimiert ist? Ich …

6
Wie schreibe ich Unit-Tests in Spark 2.0+?
Ich habe versucht, einen vernünftigen Weg zum Testen SparkSessionmit dem JUnit-Testframework zu finden. Obwohl es gute Beispiele dafür zu geben scheint SparkContext, konnte ich nicht herausfinden, wie ein entsprechendes Beispiel zum Laufen gebracht werden kann SparkSession, obwohl es an mehreren Stellen intern in der Funkenprüfbasis verwendet wird . Ich würde …






4
Welche Beziehung besteht zwischen Arbeitnehmern, Arbeiterinstanzen und Ausführenden?
Im Spark Standalone-Modus gibt es Master- und Worker-Knoten. Hier einige Fragen: Bedeutet 2 Worker-Instanz einen Worker-Knoten mit 2 Worker-Prozessen? Enthält jede Worker-Instanz einen Executor für eine bestimmte Anwendung (die Speicher, Aufgabe verwaltet) oder einen Worker-Knoten einen Executor? Gibt es ein Flussdiagramm, das erklärt, wie Spark zur Laufzeit funktioniert, z. B. …

5
Wie verwende ich Column.isin mit Liste?
val items = List("a", "b", "c") sqlContext.sql("select c1 from table") .filter($"c1".isin(items)) .collect .foreach(println) Der obige Code löst die folgende Ausnahme aus. Exception in thread "main" java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(a, b, c) at org.apache.spark.sql.catalyst.expressions.Literal$.apply(literals.scala:49) at org.apache.spark.sql.functions$.lit(functions.scala:89) at org.apache.spark.sql.Column$$anonfun$isin$1.apply(Column.scala:642) at org.apache.spark.sql.Column$$anonfun$isin$1.apply(Column.scala:642) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:35) …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.