Als «apache-spark-sql» getaggte Fragen

Apache Spark SQL ist ein Tool für "SQL und strukturierte Datenverarbeitung" in Spark, einem schnellen und universellen Cluster-Computing-System. Es kann verwendet werden, um Daten von Hive, Parkett usw. abzurufen und SQL-Abfragen über vorhandene RDDs und Datensätze auszuführen.

Spark: UDF wurde viele Male ausgeführt

Ich habe einen Datenrahmen mit folgendem Code: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Als ich nun die Protokolle überprüfte, stellte ich fest, dass die UDF für …

9 scala apache-spark apache-spark-sql

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.

Licensed under cc by-sa 3.0 with attribution required.