Programmierung pandas

13

Ich möchte das Ergebnis der Gruppierung mit Pandas drucken. Ich habe einen Datenrahmen: import pandas as pd df = pd.DataFrame({'A': ['one', 'one', 'two', 'three', 'three', 'one'], 'B': range(6)}) print(df) A B 0 one 0 1 one 1 2 two 2 3 three 3 4 three 4 5 one 5 Beim …

133 python pandas

3

Pandas: Mehrere Bedingungen beim Indizieren des Datenrahmens - unerwartetes Verhalten

Ich filtere Zeilen in einem Datenrahmen nach Werten in zwei Spalten. Aus irgendeinem Grund verhält sich der OR-Operator so, wie ich es von einem AND-Operator erwarten würde und umgekehrt. Mein Testcode: import pandas as pd df = pd.DataFrame({'a': range(5), 'b': range(5) }) # let's insert some -1 values df['a'][1] = …

133 python pandas boolean-logic

20

Wie kann ich eine Hotcodierung in Python durchführen?

Ich habe ein Klassifizierungsproblem beim maschinellen Lernen mit 80% kategorialen Variablen. Muss ich eine Hot-Codierung verwenden, wenn ich einen Klassifizierer für die Klassifizierung verwenden möchte? Kann ich die Daten ohne Codierung an einen Klassifizierer übergeben? Ich versuche Folgendes für die Funktionsauswahl zu tun: Ich habe die Zugakte gelesen: num_rows_to_read = …

132 python pandas machine-learning anaconda one-hot-encoding

5

Pandas DataFrame: Ersetzen Sie alle Werte in einer Spalte basierend auf der Bedingung

Ich habe einen einfachen DataFrame wie den folgenden: Ich möchte alle Werte aus der Spalte "Erste Staffel" auswählen und diejenigen, die über 1990 liegen, durch 1 ersetzen. In diesem Beispiel würde nur Baltimore Ravens das 1996 durch 1 ersetzen (wobei der Rest der Daten intakt bleibt). Ich habe folgendes verwendet: …

132 python pandas dataframe

5

Normalisieren Sie Daten in Pandas

Angenommen, ich habe einen Pandas-Datenrahmen df: Ich möchte den spaltenweisen Mittelwert eines Datenrahmens berechnen. Das ist einfach: df.apply(average) dann der spaltenweise Bereich max (col) - min (col). Das ist wieder einfach: df.apply(max) - df.apply(min) Nun möchte ich für jedes Element den Mittelwert seiner Spalte subtrahieren und durch den Bereich seiner …

131 python pandas numpy

10

Pandas konvertieren Datenrahmen in Array von Tupeln

Ich habe einige Daten mit Pandas manipuliert und möchte jetzt eine Stapelspeicherung in der Datenbank durchführen. Dies erfordert, dass ich den Datenrahmen in ein Array von Tupeln konvertiere, wobei jedes Tupel einer "Zeile" des Datenrahmens entspricht. Mein DataFrame sieht ungefähr so aus: In [182]: data_set Out[182]: index data_date data_1 data_2 …

131 python pandas

3

Was ist die effizienteste Methode, um Vorkommen bei Pandas zu zählen?

Ich habe einen großen (ungefähr 12 Millionen Zeilen) Datenrahmen df mit sagen: df.columns = ['word','documents','frequency'] Folgendes lief also zeitnah ab: word_grouping = df[['word','frequency']].groupby('word') MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index() MaxFrequency_perWord.columns = ['word','MaxFrequency'] Die Ausführung dauert jedoch unerwartet lange: Occurrences_of_Words = word_grouping[['word']].count().reset_index() Was mache ich hier falsch? Gibt es eine bessere Möglichkeit, Vorkommen in …

131 python pandas

6

So überprüfen Sie den D-Typ einer Spalte in Python-Pandas

Ich muss verschiedene Funktionen verwenden, um numerische Spalten und Zeichenfolgenspalten zu behandeln. Was ich jetzt mache, ist wirklich dumm: allc = list((agg.loc[:, (agg.dtypes==np.float64)|(agg.dtypes==np.int)]).columns) for y in allc: treat_numeric(agg[y]) allc = list((agg.loc[:, (agg.dtypes!=np.float64)&(agg.dtypes!=np.int)]).columns) for y in allc: treat_str(agg[y]) Gibt es eine elegantere Möglichkeit, dies zu tun? Z.B for y in agg.columns: …

130 python pandas

9

Entfernen Sie unerwünschte Teile von Zeichenfolgen in einer Spalte

Ich suche nach einer effizienten Möglichkeit, unerwünschte Teile aus Zeichenfolgen in einer DataFrame-Spalte zu entfernen. Daten sehen aus wie: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a Ich muss diese Daten kürzen, um: time result 1 09:00 52 2 10:00 62 …

129 python string pandas dataframe

2

Überprüfen Sie, ob die Variable ein Datenrahmen ist

Wenn meine Funktion f mit einer Variablen aufgerufen wird, möchte ich überprüfen, ob var ein Pandas-Datenrahmen ist: def f(var): if var == pd.DataFrame(): print "do stuff" Ich denke, die Lösung könnte recht einfach sein, aber auch mit def f(var): if var.values != None: print "do stuff" Ich kann es nicht …

129 python pandas

4

Verketten Sie eine Liste von Pandas-Datenrahmen

Ich habe eine Liste von Pandas-Datenrahmen, die ich zu einem Pandas-Datenrahmen kombinieren möchte. Ich benutze Python 2.7.10 und Pandas 0.16.2 Ich habe die Liste der Datenrahmen erstellt aus: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) Dies …

129 python pandas dataframe concat

8

Wie kann ich separate Pandas DataFrames als Unterzeichnungen zeichnen?

Ich habe einige Pandas DataFrames, die dieselbe Werteskala verwenden, aber unterschiedliche Spalten und Indizes haben. Beim Aufrufen df.plot()erhalte ich separate Plotbilder. Was ich wirklich möchte, ist, dass sie alle in derselben Handlung wie Nebenhandlungen sind, aber ich finde leider keine Lösung dafür, wie und würde mich über Hilfe sehr freuen.

128 python matplotlib pandas

7

Entfernen der Indexspalte in Pandas beim Lesen einer CSV

Ich habe den folgenden Code, der eine CSV-Datei importiert. Es gibt 3 Spalten und ich möchte die ersten beiden auf Variablen setzen. Wenn ich die zweite Spalte auf die Variable "Effizienz" setze, wird auch die Indexspalte angeheftet. Wie kann ich die Indexspalte entfernen? df = pd.DataFrame.from_csv('Efficiency_Data.csv', header=0, parse_dates=False) energy = …

127 python pandas

7

Ersetzen von Pandas oder Numpy Nan durch None für MysqlDB

Ich versuche, einen Pandas-Datenrahmen (oder kann ein Numpy-Array verwenden) mit MysqlDB in eine MySQL-Datenbank zu schreiben. MysqlDB scheint 'nan' nicht zu verstehen und meine Datenbank gibt einen Fehler aus, der besagt, dass nan nicht in der Feldliste enthalten ist. Ich muss einen Weg finden, das 'nan' in einen NoneType umzuwandeln. …

127 python pandas numpy mysql-python

3

Mehrere Aggregationen derselben Spalte mit pandas GroupBy.agg ()

Gibt es eine integrierte Pandas-Methode, um zwei verschiedene Aggregationsfunktionen f1, f2auf dieselbe Spalte anzuwenden df["returns"], ohne agg()mehrmals aufrufen zu müssen ? Beispieldatenrahmen: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 * np.random.randn(10), "dummy" …

127 python pandas dataframe aggregate pandas-groupby

Als «pandas» getaggte Fragen