Als «pyspark» getaggte Fragen

Die Spark Python-API (PySpark) macht das Apache-Spark-Programmiermodell für Python verfügbar.


15
Wie verbinde ich PyCharm mit PySpark?
Ich bin neu mit Apache Spark und habe anscheinend Apache-Spark mit Homebrew in meinem MacBook installiert: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for more …

10
Spark Error - Nicht unterstützte Hauptversion der Klassendatei
Ich versuche, Spark auf meinem Mac zu installieren. Ich habe Home Brew verwendet, um Spark 2.4.0 und Scala zu installieren. Ich habe PySpark in meiner Anaconda-Umgebung installiert und verwende PyCharm für die Entwicklung. Ich habe in mein Bash-Profil exportiert: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export …


5
PySpark 2.0 Die Größe oder Form eines DataFrame
Ich versuche, die Größe / Form eines DataFrame in PySpark herauszufinden. Ich sehe keine einzige Funktion, die dies kann. In Python kann ich tun data.shape() Gibt es eine ähnliche Funktion in PySpark? Dies ist meine aktuelle Lösung, aber ich suche nach einem Element row_number = data.count() column_number = len(data.dtypes) Die …




1
Schreiben von mehr als 50 Millionen von Pyspark df bis PostgresSQL, bester effizienter Ansatz
Was wäre der effizienteste Weg, um Millionen von Datensätzen einzufügen, beispielsweise 50 Millionen von einem Spark-Datenrahmen in Postgres-Tabellen. Ich habe dies in der Vergangenheit von Spark bis MSSQL getan, indem ich die Option für Massenkopien und Stapelgrößen verwendet habe, die ebenfalls erfolgreich war. Gibt es etwas Ähnliches, das für Postgres …

3
So beheben Sie den Fehler 'TypeError: Eine Ganzzahl ist erforderlich (Typbytes erhalten)', wenn Sie versuchen, pyspark nach der Installation von spark 2.4.4 auszuführen
Ich habe OpenJDK 13.0.1 und Python 3.8 installiert und Spark 2.4.4. Anweisungen zum Testen der Installation müssen im Stammverzeichnis der Spark-Installation ausgeführt werden. \ Bin \ pyspark. Ich bin mir nicht sicher, ob ich einen Schritt in der Funkeninstallation verpasst habe, z. B. das Festlegen einer Umgebungsvariablen, aber ich kann …

1
pandasUDF und pyarrow 0.15.0
Ich habe vor kurzem eine Reihe von Fehlern bei einer Reihe von pysparkJobs erhalten, die auf EMR-Clustern ausgeführt werden. Die Fehler sind java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at …

1
Apache Spark: Auswirkungen der Neupartitionierung, Sortierung und Zwischenspeicherung auf einen Join
Ich untersuche das Verhalten von Spark, wenn ich einen Tisch mit sich selbst verbinde. Ich benutze Databricks. Mein Dummy-Szenario ist: Lesen Sie eine externe Tabelle als Datenrahmen A (zugrunde liegende Dateien sind im Delta-Format) Definieren Sie Datenrahmen B als Datenrahmen A, wobei nur bestimmte Spalten ausgewählt sind Verbinden Sie die …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.