Programmierung pyspark

13

Wie ändere ich die Namen von Dataframe-Spalten in pyspark?

Ich komme aus dem Pandas-Hintergrund und bin es gewohnt, Daten aus CSV-Dateien in einen Datenrahmen zu lesen und dann einfach die Spaltennamen mit dem einfachen Befehl in etwas Nützliches zu ändern: df.columns = new_column_name_list Dies funktioniert jedoch nicht in pyspark-Datenrahmen, die mit sqlContext erstellt wurden. Die einzige Lösung, die ich …

201 python apache-spark pyspark pyspark-sql

2

Funkenleistung für Scala vs Python

Ich bevorzuge Python gegenüber Scala. Da Spark nativ in Scala geschrieben ist, hatte ich aus offensichtlichen Gründen erwartet, dass mein Code in der Scala schneller ausgeführt wird als in der Python-Version. Mit dieser Annahme dachte ich, ich würde die Scala-Version eines sehr gängigen Vorverarbeitungscodes für etwa 1 GB Daten lernen …

178 scala performance apache-spark pyspark rdd

15

Wie deaktiviere ich die INFO-Anmeldung in Spark?

Ich habe Spark mithilfe des AWS EC2-Handbuchs installiert und kann das Programm mithilfe des bin/pysparkSkripts problemlos starten, um zur Spark-Eingabeaufforderung zu gelangen. Außerdem kann ich den Schnellstart erfolgreich ausführen. Ich kann jedoch für mein ganzes Leben nicht herausfinden, wie die gesamte ausführliche INFOProtokollierung nach jedem Befehl gestoppt werden kann . …

143 python scala apache-spark hadoop pyspark

2

Wie füge ich eine Spark-Spalte in einen Spark DataFrame ein?

Ich möchte eine Spalte in a DataFramemit einem beliebigen Wert hinzufügen (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich withColumnFolgendes verwende: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

137 python apache-spark dataframe pyspark apache-spark-sql

9

Wie füge ich einem Spark DataFrame eine neue Spalte hinzu (mit PySpark)?

Ich habe einen Spark DataFrame (mit PySpark 1.5.1) und möchte eine neue Spalte hinzufügen. Ich habe Folgendes ohne Erfolg versucht: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Habe auch einen Fehler dabei: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Wie füge …

127 python apache-spark dataframe pyspark apache-spark-sql

19

Pyspark in Python-Shell importieren

Dies ist eine Kopie der Frage eines anderen in einem anderen Forum, die nie beantwortet wurde. Daher dachte ich, ich würde sie hier erneut stellen, da ich das gleiche Problem habe. (Siehe http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Ich habe Spark ordnungsgemäß auf meinem Computer installiert und kann Python-Programme mit den pyspark-Modulen fehlerfrei ausführen, …

111 python apache-spark pyspark

12

Laden Sie die CSV-Datei mit Spark

Ich bin neu in Spark und versuche, CSV-Daten aus einer Datei mit Spark zu lesen. Folgendes mache ich: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Ich würde erwarten, dass dieser Aufruf mir eine Liste der beiden ersten Spalten meiner Datei gibt, aber ich erhalte folgende Fehlermeldung: File "<ipython-input-60-73ea98550983>", line 1, in …

110 python csv apache-spark pyspark

8

Konvertieren Sie die Spark-DataFrame-Spalte in eine Python-Liste

Ich arbeite an einem Datenrahmen mit zwei Spalten, mvv und count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | Ich möchte zwei Listen mit MVV-Werten und Zählwert erhalten. Etwas wie mvv = [1,2,3,4] count = …

102 python apache-spark pyspark spark-dataframe

4

Spark Kill Laufende Anwendung

Ich habe eine laufende Spark-Anwendung, in der alle Kerne belegt sind, in denen meinen anderen Anwendungen keine Ressource zugewiesen wird. Ich habe einige schnelle Nachforschungen angestellt und die Leute schlugen vor, YARN kill oder / bin / spark-class zu verwenden, um den Befehl zu beenden. Ich verwende jedoch die CDH-Version …

101 apache-spark yarn pyspark

5

So ändern Sie eine Dataframe-Spalte in pyspark vom Typ "String" in den Typ "Double"

Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgendes habe ich getan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Ich wollte nur wissen, ob dies der richtige Weg ist, da beim Durchlaufen der logistischen Regression ein Fehler auftritt. Ich …

99 python apache-spark dataframe pyspark apache-spark-sql

10

Filtern Sie die Pyspark-Datenrahmenspalte mit dem Wert None

Ich versuche, einen PySpark-Datenrahmen mit einem Zeilenwert zu filtern None: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] und ich kann mit einem String-Wert richtig filtern: df[df.dt_mvmt == '2016-03-31'] # some results here aber das schlägt fehl: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Aber es gibt definitiv Werte für …

97 python apache-spark dataframe pyspark apache-spark-sql

5

Spark DataFrame groupBy und sortiere in absteigender Reihenfolge (pyspark)

Ich verwende pyspark (Python 2.7.9 / Spark 1.3.1) und habe einen Datenrahmen GroupObject, den ich in absteigender Reihenfolge filtern und sortieren muss. Der Versuch, dies über diesen Code zu erreichen. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Es wird jedoch der folgende Fehler ausgegeben. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

18

Wie setze ich die Python-Version des Treibers auf Funken?

Ich verwende Spark 1.4.0-rc2, damit ich Python 3 mit Spark verwenden kann. Wenn ich export PYSPARK_PYTHON=python3meiner .bashrc-Datei hinzufüge , kann ich spark interaktiv mit Python 3 ausführen. Wenn ich jedoch ein eigenständiges Programm im lokalen Modus ausführen möchte, wird folgende Fehlermeldung angezeigt: Exception: Python in worker has different version 3.4 …

86 apache-spark pyspark

8

So löschen Sie Spalten im pyspark-Datenrahmen

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Es gibt zwei id: bigintund ich möchte einen löschen. Wie kann ich?

81 apache-spark apache-spark-sql pyspark

9

Zeigen Sie unterschiedliche Spaltenwerte im pyspark-Datenrahmen an: Python

Bitte schlagen Sie eine pyspark-Datenrahmenalternative für Pandas vor df['col'].unique(). Ich möchte alle eindeutigen Werte in einer pyspark-Datenrahmenspalte auflisten. Nicht der SQL-Typ (Registertemplate, dann SQL-Abfrage nach bestimmten Werten). Auch brauche ich nicht groupby->countDistinct, stattdessen möchte ich unterschiedliche WERTE in dieser Spalte überprüfen.

81 pyspark pyspark-sql

Als «pyspark» getaggte Fragen