Als «apache-spark» getaggte Fragen

Apache Spark ist eine in Scala geschriebene Open Source-Engine für verteilte Datenverarbeitung, die Benutzern eine einheitliche API und verteilte Datensätze bietet. Anwendungsfälle für Apache Spark beziehen sich häufig auf maschinelles / tiefes Lernen und die Grafikverarbeitung.

23
Wie kann ich Spaltentypen im DataFrame von Spark SQL ändern?
Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year …

8
Wie speichere ich benutzerdefinierte Objekte in Dataset?
Laut Introducing Spark Datasets : Da wir uns auf Spark 2.0 freuen, planen wir einige aufregende Verbesserungen an Datensätzen, insbesondere: ... Benutzerdefinierte Encoder - Während wir derzeit Encoder für eine Vielzahl von Typen automatisch generieren, möchten wir eine API für benutzerdefinierte Objekte öffnen. und versucht, einen benutzerdefinierten Typ in einem …

8
Wie wähle ich die erste Zeile jeder Gruppe aus?
Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen aus wie: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| …

15
Wie deaktiviere ich die INFO-Anmeldung in Spark?
Ich habe Spark mithilfe des AWS EC2-Handbuchs installiert und kann das Programm mithilfe des bin/pysparkSkripts problemlos starten, um zur Spark-Eingabeaufforderung zu gelangen. Außerdem kann ich den Schnellstart erfolgreich ausführen. Ich kann jedoch für mein ganzes Leben nicht herausfinden, wie die gesamte ausführliche INFOProtokollierung nach jedem Befehl gestoppt werden kann . …

3
Wie werden Phasen in Spark in Aufgaben aufgeteilt?
Nehmen wir im Folgenden an, dass zu jedem Zeitpunkt nur ein Spark-Job ausgeführt wird. Was ich bisher bekommen habe Folgendes verstehe ich, was in Spark passiert: Wenn a SparkContexterstellt wird, startet jeder Worker-Knoten einen Executor. Ausführende sind separate Prozesse (JVM), die eine Verbindung zum Treiberprogramm herstellen. Jeder Executor hat die …
141 apache-spark 

14
Spark - CSV-Datei als DataFrame laden?
Ich möchte eine CSV in Spark lesen und als DataFrame konvertieren und in HDFS mit speichern df.registerTempTable("table_name") Ich habe versucht: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Fehler, den ich bekommen habe: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …


2
Wie füge ich eine Spark-Spalte in einen Spark DataFrame ein?
Ich möchte eine Spalte in a DataFramemit einem beliebigen Wert hinzufügen (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich withColumnFolgendes verwende: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …


3
Apache Spark: map vs mapPartitions?
Was ist der Unterschied zwischen einem RDD map und einer mapPartitionsMethode? Und verhält flatMapsich wie mapoder wie mapPartitions? Vielen Dank. (bearbeiten) dh was ist der Unterschied (entweder semantisch oder in Bezug auf die Ausführung) zwischen def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = …


12
So legen Sie den Apache Spark Executor-Speicher fest
Wie kann ich den für Apache Spark Executor-Knoten verfügbaren Speicher erhöhen? Ich habe eine 2-GB-Datei, die zum Laden in Apache Spark geeignet ist. Ich führe momentan Apache Spark auf einem Computer aus, sodass sich Treiber und Executor auf demselben Computer befinden. Das Gerät verfügt über 8 GB Speicher. Wenn ich …

9
Wie füge ich einem Spark DataFrame eine neue Spalte hinzu (mit PySpark)?
Ich habe einen Spark DataFrame (mit PySpark 1.5.1) und möchte eine neue Spalte hinzufügen. Ich habe Folgendes ohne Erfolg versucht: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Habe auch einen Fehler dabei: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Wie füge …

10
Wie drucke ich den Inhalt von RDD?
Ich versuche, den Inhalt einer Sammlung auf der Spark-Konsole zu drucken. Ich habe einen Typ: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Und ich benutze den Befehl: scala> linesWithSessionId.map(line => println(line)) Aber das ist gedruckt: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] auf der Karte um: 19 Wie kann ich das RDD auf die …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.