Programmierung dataframe

10

Aufteilen des Wörterbuchs / der Liste innerhalb einer Pandas-Spalte in separate Spalten

Ich habe Daten in einer PostgreSQL-Datenbank gespeichert. Ich frage diese Daten mit Python2.7 ab und verwandle sie in einen Pandas DataFrame. Die letzte Spalte dieses Datenrahmens enthält jedoch ein Wörterbuch (oder eine Liste?) Mit Werten. Der DataFrame sieht folgendermaßen aus: [1] df Station ID Pollutants 8809 {"a": "46", "b": "3", …

145 python pandas dictionary dataframe

2

Wählen Sie Zeilen in Pandas MultiIndex DataFrame aus

Was sind die häufigsten Pandas-Methoden zum Auswählen / Filtern von Zeilen eines Datenrahmens, dessen Index ein MultiIndex ist ? Schneiden basierend auf einem einzelnen Wert / Etikett Schneiden basierend auf mehreren Etiketten von einer oder mehreren Ebenen Filtern nach booleschen Bedingungen und Ausdrücken Welche Methoden sind unter welchen Umständen anwendbar? …

145 python pandas dataframe slice multi-index

7

Pandas Datenrahmen fillna () nur einige Spalten vorhanden

Ich versuche, keine Werte in einem Pandas-Datenrahmen mit Nullen für nur eine Teilmenge von Spalten zu füllen. Wenn ich es tue: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Die Ausgabe: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN …

144 python pandas dataframe

7

So finden Sie heraus, welche Spalten einen NaN-Wert im Pandas-Datenrahmen enthalten

Bei einem Pandas-Datenrahmen, der mögliche NaN-Werte enthält, die hier und da verstreut sind: Frage: Wie bestimme ich, welche Spalten NaN-Werte enthalten? Kann ich insbesondere eine Liste der Spaltennamen erhalten, die NaNs enthalten?

144 python pandas dataframe nan

8

Wie wähle ich die erste Zeile jeder Gruppe aus?

Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen aus wie: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| …

143 sql scala apache-spark dataframe apache-spark-sql

6

Wie bekomme ich die erste Spalte eines Pandas DataFrame als Serie?

Ich habe es versucht: x=pandas.DataFrame(...) s = x.take([0], axis=1) Und sbekommt einen DataFrame, keine Serie.

142 python dataframe pandas series

14

Bestimmen Sie die Anzahl der NA-Werte in einer Spalte

Ich möchte die Anzahl der NAWerte in einer Datenrahmenspalte zählen. Angenommen, mein Datenrahmen wird aufgerufen df, und der Name der Spalte, die ich in Betracht ziehe, lautet col. Ich habe mir Folgendes ausgedacht: sapply(df$col, function(x) sum(length(which(is.na(x))))) Ist dies ein guter / effizientester Weg, dies zu tun?

142 r dataframe

8

Benennen Sie den Pandas DataFrame-Index um

Ich habe eine CSV-Datei ohne Header mit einem DateTime-Index. Ich möchte den Index und den Spaltennamen umbenennen, aber mit df.rename () wird nur der Spaltenname umbenannt. Fehler? Ich bin auf Version 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 …

141 python pandas dataframe

9

Wie ersetze ich NaNs durch vorhergehende Werte in pandas DataFrame?

Angenommen, ich habe einen DataFrame mit einigen NaNs: >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 Was ich tun muss, ist, jeden NaNdurch den …

140 python python-3.x pandas dataframe nan

3

Wie speichere ich einen data.frame in R?

Ich habe in R einen data.frame erstellt, der nicht sehr groß ist, dessen Erstellung jedoch einige Zeit in Anspruch nimmt. Ich würde es als Datei speichern, die ich dann wieder in R öffnen kann?

137 r dataframe

2

Wie füge ich eine Spark-Spalte in einen Spark DataFrame ein?

Ich möchte eine Spalte in a DataFramemit einem beliebigen Wert hinzufügen (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich withColumnFolgendes verwende: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

137 python apache-spark dataframe pyspark apache-spark-sql

7

Suchen Sie eine Spalte, deren Name eine bestimmte Zeichenfolge enthält

Ich habe einen Datenrahmen mit Spaltennamen und möchte den finden, der eine bestimmte Zeichenfolge enthält, aber nicht genau mit dieser übereinstimmt. Ich suche 'spike'in Spaltennamen wie 'spike-2', 'hey spike', 'spiked-in'(der 'spike'Teil immer stetig ist). Ich möchte, dass der Spaltenname als Zeichenfolge oder Variable zurückgegeben wird, damit ich später mit df['name']oder …

137 python python-3.x string pandas dataframe

5

Pandas Datenrahmen erhalten die erste Zeile jeder Gruppe

Ich habe einen Pandas DataFramewie folgt. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Ich möchte dies nach ["id", "value"] gruppieren und die erste Zeile jeder Gruppe erhalten. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 …

137 python pandas dataframe

6

Pandas Dataframe-Spalten, die mit sklearn skaliert werden

Ich habe einen Pandas-Datenrahmen mit gemischten Spalten und möchte den min_max_scaler von sklearn auf einige der Spalten anwenden. Im Idealfall würde ich diese Transformationen gerne an Ort und Stelle durchführen, habe aber noch keinen Weg gefunden, dies zu tun. Ich habe den folgenden Code geschrieben, der funktioniert: import pandas as …

137 python pandas scikit-learn dataframe

6

pandas: Wie teile ich Text in einer Spalte in mehrere Zeilen auf?

Ich arbeite mit einer großen CSV-Datei und die vorletzte Spalte enthält eine Textzeichenfolge, die ich durch ein bestimmtes Trennzeichen teilen möchte. Ich habe mich gefragt, ob es einen einfachen Weg gibt, dies mit Pandas oder Python zu tun. CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 F04 2:218:10:4,6 …

135 python pandas dataframe

Als «dataframe» getaggte Fragen