Programmierung apache-spark-sql

5

Spark DataFrame groupBy und sortiere in absteigender Reihenfolge (pyspark)

Ich verwende pyspark (Python 2.7.9 / Spark 1.3.1) und habe einen Datenrahmen GroupObject, den ich in absteigender Reihenfolge filtern und sortieren muss. Der Versuch, dies über diesen Code zu erreichen. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Es wird jedoch der folgende Fehler ausgegeben. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

9

Extrahieren Sie die Spaltenwerte von Dataframe als Liste in Apache Spark

Ich möchte eine Zeichenfolgenspalte eines Datenrahmens in eine Liste konvertieren. Was ich in der DataframeAPI finden kann, ist RDD. Daher habe ich versucht, es zuerst wieder in RDD zu konvertieren und dann die toArrayFunktion auf das RDD anzuwenden . In diesem Fall funktionieren Länge und SQL einwandfrei. Das Ergebnis von …

86 scala apache-spark apache-spark-sql

11

Wie speichere ich DataFrame direkt in Hive?

Ist es möglich, DataFrameFunken direkt bei Hive zu speichern ? Ich habe versucht , mit der Umwandlung DataFramezu Rddund dann als Textdatei speichern und dann in Hive zu laden. Aber ich frage mich, ob ich direkt sparen kann, um dataframezu leben

85 scala apache-spark hive apache-spark-sql

8

So löschen Sie Spalten im pyspark-Datenrahmen

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Es gibt zwei id: bigintund ich möchte einen löschen. Wie kann ich?

81 apache-spark apache-spark-sql pyspark

6

Konvertieren Sie die pyspark-Zeichenfolge in das Datumsformat

Ich habe einen Datums-Pyspark-Datenrahmen mit einer Zeichenfolgenspalte im Format MM-dd-yyyyund versuche, diese in eine Datumsspalte zu konvertieren. Ich habe es versucht: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich bekomme eine Folge von Nullen. Kann jemand helfen?

80 apache-spark pyspark apache-spark-sql pyspark-sql

10

Spark Dataframe unterscheiden Spalten mit doppeltem Namen

Wie ich in Spark Dataframe weiß, kann dieser für mehrere Spalten denselben Namen haben, wie im folgenden Datenrahmen-Snapshot gezeigt: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, …

80 python apache-spark dataframe pyspark apache-spark-sql

6

Wie schreibe ich Unit-Tests in Spark 2.0+?

Ich habe versucht, einen vernünftigen Weg zum Testen SparkSessionmit dem JUnit-Testframework zu finden. Obwohl es gute Beispiele dafür zu geben scheint SparkContext, konnte ich nicht herausfinden, wie ein entsprechendes Beispiel zum Laufen gebracht werden kann SparkSession, obwohl es an mehreren Stellen intern in der Funkenprüfbasis verwendet wird . Ich würde …

77 scala unit-testing apache-spark junit apache-spark-sql

3

Spark SQL: Wenden Sie Aggregatfunktionen auf eine Liste von Spalten an

Gibt es eine Möglichkeit, eine Aggregatfunktion auf alle (oder eine Liste von) Spalten eines Datenrahmens anzuwenden, wenn Sie a ausführen groupBy? Mit anderen Worten, gibt es eine Möglichkeit, dies für jede Spalte zu vermeiden: df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

76 apache-spark dataframe apache-spark-sql aggregate-functions

5

Wie exportiere ich einen Tabellendatenrahmen in PySpark nach CSV?

Ich verwende Spark 1.3.1 (PySpark) und habe mithilfe einer SQL-Abfrage eine Tabelle generiert. Ich habe jetzt ein Objekt, das a ist DataFrame. Ich möchte dieses DataFrameObjekt (ich habe es "Tabelle" genannt) in eine CSV-Datei exportieren, damit ich es bearbeiten und die Spalten zeichnen kann. Wie exportiere ich die DataFrame"Tabelle" in …

76 python apache-spark dataframe apache-spark-sql export-to-csv

5

Ruft die aktuelle Anzahl der Partitionen eines DataFrames ab

Gibt es eine Möglichkeit, die aktuelle Anzahl der Partitionen eines DataFrame abzurufen? Ich habe das DataFrame-Javadoc (Spark 1.6) überprüft und keine Methode dafür gefunden, oder habe ich es einfach verpasst? (Im Fall von JavaRDD gibt es eine getNumPartitions () -Methode.)

74 apache-spark dataframe apache-spark-sql

5

Aktualisieren einer Datenrahmenspalte in Spark

Bei Betrachtung der neuen Spark-Datenrahmen-API ist unklar, ob es möglich ist, Datenrahmenspalten zu ändern. Wie würde ich mich über einen Wert in der Zeile zu ändern xSpalte yeines Datenrahmens? In pandasdiesem wäredf.ix[x,y] = new_value Bearbeiten: Wenn Sie das unten Gesagte konsolidieren, können Sie den vorhandenen Datenrahmen nicht ändern, da er …

72 python apache-spark pyspark apache-spark-sql spark-dataframe

5

Wie verwende ich Column.isin mit Liste?

val items = List("a", "b", "c") sqlContext.sql("select c1 from table") .filter($"c1".isin(items)) .collect .foreach(println) Der obige Code löst die folgende Ausnahme aus. Exception in thread "main" java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(a, b, c) at org.apache.spark.sql.catalyst.expressions.Literal$.apply(literals.scala:49) at org.apache.spark.sql.functions$.lit(functions.scala:89) at org.apache.spark.sql.Column$$anonfun$isin$1.apply(Column.scala:642) at org.apache.spark.sql.Column$$anonfun$isin$1.apply(Column.scala:642) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:35) …

71 scala apache-spark apache-spark-sql

2

Fehler bei Verwendung von OFF_HEAP Storage mit Spark 1.4.0 und Tachyon 0.6.4

Ich versuche, meine RDD mit Off-Heap-Speicher auf Spark 1.4.0 und Tachyon 0.6.4 so zu halten: val a = sqlContext.parquetFile("a1.parquet") a.persist(org.apache.spark.storage.StorageLevel.OFF_HEAP) a.count() Danach bekomme ich folgende Ausnahme. Irgendwelche Ideen dazu? 15/06/16 10:14:53 INFO : Tachyon client (version 0.6.4) is trying to connect master @ localhost/127.0.0.1:19998 15/06/16 10:14:53 INFO : User registered …

70 apache-spark apache-spark-sql alluxio

3

Wie verwende ich die JDBC-Quelle zum Schreiben und Lesen von Daten in (Py) Spark?

Das Ziel dieser Frage ist es zu dokumentieren: Schritte zum Lesen und Schreiben von Daten über JDBC-Verbindungen in PySpark mögliche Probleme mit JDBC-Quellen und bekannten Lösungen Mit kleinen Änderungen sollten diese Methoden mit anderen unterstützten Sprachen wie Scala und R funktionieren.

69 python scala apache-spark apache-spark-sql pyspark

1

Schreiben von mehr als 50 Millionen von Pyspark df bis PostgresSQL, bester effizienter Ansatz

Was wäre der effizienteste Weg, um Millionen von Datensätzen einzufügen, beispielsweise 50 Millionen von einem Spark-Datenrahmen in Postgres-Tabellen. Ich habe dies in der Vergangenheit von Spark bis MSSQL getan, indem ich die Option für Massenkopien und Stapelgrößen verwendet habe, die ebenfalls erfolgreich war. Gibt es etwas Ähnliches, das für Postgres …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

Als «apache-spark-sql» getaggte Fragen