Programmierung apache-spark-sql

15

Unterschied zwischen DataFrame, Dataset und RDD in Spark

Ich frage mich nur, was der Unterschied zwischen einem RDDund DataFrame (Spark 2.0.0 DataFrame ist nur ein Typ-Alias für Dataset[Row]) in Apache Spark ist. Können Sie eine in die andere konvertieren?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

23

Wie kann ich Spaltentypen im DataFrame von Spark SQL ändern?

Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year …

151 scala apache-spark apache-spark-sql

8

Wie wähle ich die erste Zeile jeder Gruppe aus?

Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen aus wie: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| …

143 sql scala apache-spark dataframe apache-spark-sql

14

Spark - CSV-Datei als DataFrame laden?

Ich möchte eine CSV in Spark lesen und als DataFrame konvertieren und in HDFS mit speichern df.registerTempTable("table_name") Ich habe versucht: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Fehler, den ich bekommen habe: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …

140 scala apache-spark hadoop apache-spark-sql hdfs

11

So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in Spark

Wie kann ich eine RDD konvertieren ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) zu einem Datenrahmen org.apache.spark.sql.DataFrame. Ich habe einen Datenrahmen mit rdd konvertiert .rdd. Nach der Verarbeitung möchte ich es wieder im Datenrahmen haben. Wie kann ich das machen ?

139 scala apache-spark apache-spark-sql rdd

2

Wie füge ich eine Spark-Spalte in einen Spark DataFrame ein?

Ich möchte eine Spalte in a DataFramemit einem beliebigen Wert hinzufügen (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich withColumnFolgendes verwende: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

137 python apache-spark dataframe pyspark apache-spark-sql

6

Wie sortiere ich in Spark SQL nach Spalten in absteigender Reihenfolge?

Ich habe es versucht, df.orderBy("col1").show(10)aber es wurde in aufsteigender Reihenfolge sortiert. df.sort("col1").show(10)sortiert auch in absteigender Reihenfolge. Ich habe mir den Stackoverflow angesehen und die Antworten, die ich gefunden habe, waren alle veraltet oder bezogen sich auf RDDs . Ich möchte den nativen Datenrahmen in Spark verwenden.

136 scala apache-spark apache-spark-sql

5

Wie definiere ich die Partitionierung von DataFrame?

Ich habe begonnen, Spark SQL und DataFrames in Spark 1.4.0 zu verwenden. Ich möchte einen benutzerdefinierten Partitionierer in DataFrames in Scala definieren, sehe aber nicht, wie das geht. Eine der Datentabellen, mit denen ich arbeite, enthält eine Liste von Transaktionen nach Konto, silimar zum folgenden Beispiel. Account Date Type Amount …

128 scala apache-spark dataframe apache-spark-sql partitioning

9

Wie füge ich einem Spark DataFrame eine neue Spalte hinzu (mit PySpark)?

Ich habe einen Spark DataFrame (mit PySpark 1.5.1) und möchte eine neue Spalte hinzufügen. Ich habe Folgendes ohne Erfolg versucht: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Habe auch einen Fehler dabei: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Wie füge …

127 python apache-spark dataframe pyspark apache-spark-sql

14

Verketten Sie Spalten in Apache Spark DataFrame

Wie verketten wir zwei Spalten in einem Apache Spark DataFrame? Gibt es eine Funktion in Spark SQL, die wir verwenden können?

115 sql apache-spark dataframe apache-spark-sql

14

Wie überprüfe ich, ob der Funken-Datenrahmen leer ist?

Im Moment muss ich df.count > 0überprüfen, ob das DataFrameleer ist oder nicht. Aber es ist irgendwie ineffizient. Gibt es einen besseren Weg, das zu tun? Vielen Dank. PS: Ich möchte überprüfen, ob es leer ist, damit ich das nur speichere, DataFramewenn es nicht leer ist

99 apache-spark apache-spark-sql

5

So ändern Sie eine Dataframe-Spalte in pyspark vom Typ "String" in den Typ "Double"

Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgendes habe ich getan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Ich wollte nur wissen, ob dies der richtige Weg ist, da beim Durchlaufen der logistischen Regression ein Fehler auftritt. Ich …

99 python apache-spark dataframe pyspark apache-spark-sql

10

Filtern Sie die Pyspark-Datenrahmenspalte mit dem Wert None

Ich versuche, einen PySpark-Datenrahmen mit einem Zeilenwert zu filtern None: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] und ich kann mit einem String-Wert richtig filtern: df[df.dt_mvmt == '2016-03-31'] # some results here aber das schlägt fehl: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Aber es gibt definitiv Werte für …

97 python apache-spark dataframe pyspark apache-spark-sql

7

Wie erstelle ich einen leeren DataFrame mit einem angegebenen Schema?

Ich möchte DataFramemit einem bestimmten Schema in Scala erstellen . Ich habe versucht, JSON read (ich meine das Lesen leerer Dateien) zu verwenden, aber ich denke nicht, dass dies die beste Vorgehensweise ist.

94 scala apache-spark dataframe apache-spark-sql

5

Umbenennen von Spaltennamen eines DataFrame in Spark Scala

Ich versuche alle Header / Spaltennamen von a DataFramein Spark-Scala zu konvertieren . Ab sofort habe ich folgenden Code, der nur einen einzelnen Spaltennamen ersetzt. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

Als «apache-spark-sql» getaggte Fragen