Als «apache-spark-sql» getaggte Fragen

Apache Spark SQL ist ein Tool für "SQL und strukturierte Datenverarbeitung" in Spark, einem schnellen und universellen Cluster-Computing-System. Es kann verwendet werden, um Daten von Hive, Parkett usw. abzurufen und SQL-Abfragen über vorhandene RDDs und Datensätze auszuführen.

5
Spark DataFrame groupBy und sortiere in absteigender Reihenfolge (pyspark)
Ich verwende pyspark (Python 2.7.9 / Spark 1.3.1) und habe einen Datenrahmen GroupObject, den ich in absteigender Reihenfolge filtern und sortieren muss. Der Versuch, dies über diesen Code zu erreichen. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Es wird jedoch der folgende Fehler ausgegeben. sort() got an unexpected keyword argument 'ascending'



8
So löschen Sie Spalten im pyspark-Datenrahmen
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Es gibt zwei id: bigintund ich möchte einen löschen. Wie kann ich?



6
Wie schreibe ich Unit-Tests in Spark 2.0+?
Ich habe versucht, einen vernünftigen Weg zum Testen SparkSessionmit dem JUnit-Testframework zu finden. Obwohl es gute Beispiele dafür zu geben scheint SparkContext, konnte ich nicht herausfinden, wie ein entsprechendes Beispiel zum Laufen gebracht werden kann SparkSession, obwohl es an mehreren Stellen intern in der Funkenprüfbasis verwendet wird . Ich würde …





5
Wie verwende ich Column.isin mit Liste?
val items = List("a", "b", "c") sqlContext.sql("select c1 from table") .filter($"c1".isin(items)) .collect .foreach(println) Der obige Code löst die folgende Ausnahme aus. Exception in thread "main" java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(a, b, c) at org.apache.spark.sql.catalyst.expressions.Literal$.apply(literals.scala:49) at org.apache.spark.sql.functions$.lit(functions.scala:89) at org.apache.spark.sql.Column$$anonfun$isin$1.apply(Column.scala:642) at org.apache.spark.sql.Column$$anonfun$isin$1.apply(Column.scala:642) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:35) …

2
Fehler bei Verwendung von OFF_HEAP Storage mit Spark 1.4.0 und Tachyon 0.6.4
Ich versuche, meine RDD mit Off-Heap-Speicher auf Spark 1.4.0 und Tachyon 0.6.4 so zu halten: val a = sqlContext.parquetFile("a1.parquet") a.persist(org.apache.spark.storage.StorageLevel.OFF_HEAP) a.count() Danach bekomme ich folgende Ausnahme. Irgendwelche Ideen dazu? 15/06/16 10:14:53 INFO : Tachyon client (version 0.6.4) is trying to connect master @ localhost/127.0.0.1:19998 15/06/16 10:14:53 INFO : User registered …


1
Schreiben von mehr als 50 Millionen von Pyspark df bis PostgresSQL, bester effizienter Ansatz
Was wäre der effizienteste Weg, um Millionen von Datensätzen einzufügen, beispielsweise 50 Millionen von einem Spark-Datenrahmen in Postgres-Tabellen. Ich habe dies in der Vergangenheit von Spark bis MSSQL getan, indem ich die Option für Massenkopien und Stapelgrößen verwendet habe, die ebenfalls erfolgreich war. Gibt es etwas Ähnliches, das für Postgres …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.