Als «apache-spark» getaggte Fragen

Apache Spark ist eine in Scala geschriebene Open Source-Engine für verteilte Datenverarbeitung, die Benutzern eine einheitliche API und verteilte Datensätze bietet. Anwendungsfälle für Apache Spark beziehen sich häufig auf maschinelles / tiefes Lernen und die Grafikverarbeitung.


13
Spark - repartition () vs coalesce ()
Laut Learning Spark Beachten Sie, dass die Neupartitionierung Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition()aufgerufen coalesce(), mit der Datenverschiebungen vermieden werden können, jedoch nur, wenn Sie die Anzahl der RDD-Partitionen verringern. Ein Unterschied, den ich bekomme, ist, dass mit repartition()der Anzahl der …


12
Spark java.lang.OutOfMemoryError: Java-Heapspeicher
Mein Cluster: 1 Master, 11 Slaves, jeder Knoten hat 6 GB Speicher. Meine Einstellungen: spark.executor.memory=4g, Dspark.akka.frameSize=512 Hier ist das Problem: Zuerst habe ich einige Daten (2,19 GB) von HDFS zu RDD gelesen: val imageBundleRDD = sc.newAPIHadoopFile(...) Zweitens , machen Sie etwas auf diesem RDD: val res = imageBundleRDD.map(data => { …

7
Aufgabe nicht serialisierbar: java.io.NotSerializableException beim Aufruf der Funktion außerhalb des Abschlusses nur für Klassen, nicht für Objekte
Seltsames Verhalten beim Aufrufen einer Funktion außerhalb eines Abschlusses: Wenn sich die Funktion in einem Objekt befindet, funktioniert alles Wenn die Funktion in einer Klasse ist, erhalten Sie: Aufgabe nicht serialisierbar: java.io.NotSerializableException: Testen Das Problem ist, dass ich meinen Code in einer Klasse und nicht in einem Objekt benötige. Irgendeine …



13
Wie kann der vollständige Spalteninhalt in einem Spark-Datenrahmen angezeigt werden?
Ich verwende spark-csv, um Daten in einen DataFrame zu laden. Ich möchte eine einfache Abfrage durchführen und den Inhalt anzeigen: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Die Spalte scheint abgeschnitten zu sein: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …

13
Wie ändere ich die Namen von Dataframe-Spalten in pyspark?
Ich komme aus dem Pandas-Hintergrund und bin es gewohnt, Daten aus CSV-Dateien in einen Datenrahmen zu lesen und dann einfach die Spaltennamen mit dem einfachen Befehl in etwas Nützliches zu ändern: df.columns = new_column_name_list Dies funktioniert jedoch nicht in pyspark-Datenrahmen, die mit sqlContext erstellt wurden. Die einzige Lösung, die ich …


20
Wie kann ich verhindern, dass INFO-Nachrichten auf der Spark-Konsole angezeigt werden?
Ich möchte verschiedene Nachrichten stoppen, die auf Spark Shell kommen. Ich habe versucht, die log4j.propertiesDatei zu bearbeiten , um diese Nachricht zu stoppen. Hier sind die Inhalte von log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to …

10
Wie lese ich mehrere Textdateien in eine einzige RDD?
Ich möchte eine Reihe von Textdateien von einem HDFS-Speicherort lesen und eine Zuordnung in einer Iteration mit Spark durchführen. JavaRDD<String> records = ctx.textFile(args[1], 1); kann jeweils nur eine Datei lesen. Ich möchte mehr als eine Datei lesen und als einzelne RDD verarbeiten. Wie?
178 apache-spark 

2
Funkenleistung für Scala vs Python
Ich bevorzuge Python gegenüber Scala. Da Spark nativ in Scala geschrieben ist, hatte ich aus offensichtlichen Gründen erwartet, dass mein Code in der Scala schneller ausgeführt wird als in der Python-Version. Mit dieser Annahme dachte ich, ich würde die Scala-Version eines sehr gängigen Vorverarbeitungscodes für etwa 1 GB Daten lernen …

5
(Warum) müssen wir den Cache aufrufen oder auf einer RDD bestehen bleiben?
Wenn ein ausfallsicheres verteiltes Dataset (RDD) aus einer Textdatei oder -sammlung (oder aus einem anderen RDD) erstellt wird, müssen wir "Cache" oder "Persist" explizit aufrufen, um die RDD-Daten im Speicher zu speichern? Oder werden die RDD-Daten standardmäßig verteilt im Speicher gespeichert? val textFile = sc.textFile("/user/emp.txt") Nach meinem Verständnis ist textFile …
171 scala  apache-spark  rdd 


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.