Als «pyspark» getaggte Fragen

Die Spark Python-API (PySpark) macht das Apache-Spark-Programmiermodell für Python verfügbar.

13
Wie ändere ich die Namen von Dataframe-Spalten in pyspark?
Ich komme aus dem Pandas-Hintergrund und bin es gewohnt, Daten aus CSV-Dateien in einen Datenrahmen zu lesen und dann einfach die Spaltennamen mit dem einfachen Befehl in etwas Nützliches zu ändern: df.columns = new_column_name_list Dies funktioniert jedoch nicht in pyspark-Datenrahmen, die mit sqlContext erstellt wurden. Die einzige Lösung, die ich …

2
Funkenleistung für Scala vs Python
Ich bevorzuge Python gegenüber Scala. Da Spark nativ in Scala geschrieben ist, hatte ich aus offensichtlichen Gründen erwartet, dass mein Code in der Scala schneller ausgeführt wird als in der Python-Version. Mit dieser Annahme dachte ich, ich würde die Scala-Version eines sehr gängigen Vorverarbeitungscodes für etwa 1 GB Daten lernen …

15
Wie deaktiviere ich die INFO-Anmeldung in Spark?
Ich habe Spark mithilfe des AWS EC2-Handbuchs installiert und kann das Programm mithilfe des bin/pysparkSkripts problemlos starten, um zur Spark-Eingabeaufforderung zu gelangen. Außerdem kann ich den Schnellstart erfolgreich ausführen. Ich kann jedoch für mein ganzes Leben nicht herausfinden, wie die gesamte ausführliche INFOProtokollierung nach jedem Befehl gestoppt werden kann . …

2
Wie füge ich eine Spark-Spalte in einen Spark DataFrame ein?
Ich möchte eine Spalte in a DataFramemit einem beliebigen Wert hinzufügen (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich withColumnFolgendes verwende: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

9
Wie füge ich einem Spark DataFrame eine neue Spalte hinzu (mit PySpark)?
Ich habe einen Spark DataFrame (mit PySpark 1.5.1) und möchte eine neue Spalte hinzufügen. Ich habe Folgendes ohne Erfolg versucht: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Habe auch einen Fehler dabei: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Wie füge …

19
Pyspark in Python-Shell importieren
Dies ist eine Kopie der Frage eines anderen in einem anderen Forum, die nie beantwortet wurde. Daher dachte ich, ich würde sie hier erneut stellen, da ich das gleiche Problem habe. (Siehe http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Ich habe Spark ordnungsgemäß auf meinem Computer installiert und kann Python-Programme mit den pyspark-Modulen fehlerfrei ausführen, …

12
Laden Sie die CSV-Datei mit Spark
Ich bin neu in Spark und versuche, CSV-Daten aus einer Datei mit Spark zu lesen. Folgendes mache ich: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Ich würde erwarten, dass dieser Aufruf mir eine Liste der beiden ersten Spalten meiner Datei gibt, aber ich erhalte folgende Fehlermeldung: File "<ipython-input-60-73ea98550983>", line 1, in …


4
Spark Kill Laufende Anwendung
Ich habe eine laufende Spark-Anwendung, in der alle Kerne belegt sind, in denen meinen anderen Anwendungen keine Ressource zugewiesen wird. Ich habe einige schnelle Nachforschungen angestellt und die Leute schlugen vor, YARN kill oder / bin / spark-class zu verwenden, um den Befehl zu beenden. Ich verwende jedoch die CDH-Version …

5
So ändern Sie eine Dataframe-Spalte in pyspark vom Typ "String" in den Typ "Double"
Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgendes habe ich getan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Ich wollte nur wissen, ob dies der richtige Weg ist, da beim Durchlaufen der logistischen Regression ein Fehler auftritt. Ich …

10
Filtern Sie die Pyspark-Datenrahmenspalte mit dem Wert None
Ich versuche, einen PySpark-Datenrahmen mit einem Zeilenwert zu filtern None: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] und ich kann mit einem String-Wert richtig filtern: df[df.dt_mvmt == '2016-03-31'] # some results here aber das schlägt fehl: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Aber es gibt definitiv Werte für …

5
Spark DataFrame groupBy und sortiere in absteigender Reihenfolge (pyspark)
Ich verwende pyspark (Python 2.7.9 / Spark 1.3.1) und habe einen Datenrahmen GroupObject, den ich in absteigender Reihenfolge filtern und sortieren muss. Der Versuch, dies über diesen Code zu erreichen. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Es wird jedoch der folgende Fehler ausgegeben. sort() got an unexpected keyword argument 'ascending'

18
Wie setze ich die Python-Version des Treibers auf Funken?
Ich verwende Spark 1.4.0-rc2, damit ich Python 3 mit Spark verwenden kann. Wenn ich export PYSPARK_PYTHON=python3meiner .bashrc-Datei hinzufüge , kann ich spark interaktiv mit Python 3 ausführen. Wenn ich jedoch ein eigenständiges Programm im lokalen Modus ausführen möchte, wird folgende Fehlermeldung angezeigt: Exception: Python in worker has different version 3.4 …

8
So löschen Sie Spalten im pyspark-Datenrahmen
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Es gibt zwei id: bigintund ich möchte einen löschen. Wie kann ich?

9
Zeigen Sie unterschiedliche Spaltenwerte im pyspark-Datenrahmen an: Python
Bitte schlagen Sie eine pyspark-Datenrahmenalternative für Pandas vor df['col'].unique(). Ich möchte alle eindeutigen Werte in einer pyspark-Datenrahmenspalte auflisten. Nicht der SQL-Typ (Registertemplate, dann SQL-Abfrage nach bestimmten Werten). Auch brauche ich nicht groupby->countDistinct, stattdessen möchte ich unterschiedliche WERTE in dieser Spalte überprüfen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.