Als «pandas» getaggte Fragen

Pandas ist eine Python-Bibliothek zur Datenmanipulation und -analyse, z. B. Datenrahmen, mehrdimensionale Zeitreihen und Querschnittsdatensätze, die häufig in Statistiken, experimentellen wissenschaftlichen Ergebnissen, Ökonometrie oder Finanzen verwendet werden. Pandas ist eine der wichtigsten Data Science-Bibliotheken in Python.

13
So drucken Sie ein Groupby-Objekt
Ich möchte das Ergebnis der Gruppierung mit Pandas drucken. Ich habe einen Datenrahmen: import pandas as pd df = pd.DataFrame({'A': ['one', 'one', 'two', 'three', 'three', 'one'], 'B': range(6)}) print(df) A B 0 one 0 1 one 1 2 two 2 3 three 3 4 three 4 5 one 5 Beim …
133 python  pandas 


20
Wie kann ich eine Hotcodierung in Python durchführen?
Ich habe ein Klassifizierungsproblem beim maschinellen Lernen mit 80% kategorialen Variablen. Muss ich eine Hot-Codierung verwenden, wenn ich einen Klassifizierer für die Klassifizierung verwenden möchte? Kann ich die Daten ohne Codierung an einen Klassifizierer übergeben? Ich versuche Folgendes für die Funktionsauswahl zu tun: Ich habe die Zugakte gelesen: num_rows_to_read = …


5
Normalisieren Sie Daten in Pandas
Angenommen, ich habe einen Pandas-Datenrahmen df: Ich möchte den spaltenweisen Mittelwert eines Datenrahmens berechnen. Das ist einfach: df.apply(average) dann der spaltenweise Bereich max (col) - min (col). Das ist wieder einfach: df.apply(max) - df.apply(min) Nun möchte ich für jedes Element den Mittelwert seiner Spalte subtrahieren und durch den Bereich seiner …
131 python  pandas  numpy 

10
Pandas konvertieren Datenrahmen in Array von Tupeln
Ich habe einige Daten mit Pandas manipuliert und möchte jetzt eine Stapelspeicherung in der Datenbank durchführen. Dies erfordert, dass ich den Datenrahmen in ein Array von Tupeln konvertiere, wobei jedes Tupel einer "Zeile" des Datenrahmens entspricht. Mein DataFrame sieht ungefähr so ​​aus: In [182]: data_set Out[182]: index data_date data_1 data_2 …
131 python  pandas 

3
Was ist die effizienteste Methode, um Vorkommen bei Pandas zu zählen?
Ich habe einen großen (ungefähr 12 Millionen Zeilen) Datenrahmen df mit sagen: df.columns = ['word','documents','frequency'] Folgendes lief also zeitnah ab: word_grouping = df[['word','frequency']].groupby('word') MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index() MaxFrequency_perWord.columns = ['word','MaxFrequency'] Die Ausführung dauert jedoch unerwartet lange: Occurrences_of_Words = word_grouping[['word']].count().reset_index() Was mache ich hier falsch? Gibt es eine bessere Möglichkeit, Vorkommen in …
131 python  pandas 

6
So überprüfen Sie den D-Typ einer Spalte in Python-Pandas
Ich muss verschiedene Funktionen verwenden, um numerische Spalten und Zeichenfolgenspalten zu behandeln. Was ich jetzt mache, ist wirklich dumm: allc = list((agg.loc[:, (agg.dtypes==np.float64)|(agg.dtypes==np.int)]).columns) for y in allc: treat_numeric(agg[y]) allc = list((agg.loc[:, (agg.dtypes!=np.float64)&(agg.dtypes!=np.int)]).columns) for y in allc: treat_str(agg[y]) Gibt es eine elegantere Möglichkeit, dies zu tun? Z.B for y in agg.columns: …
130 python  pandas 


2
Überprüfen Sie, ob die Variable ein Datenrahmen ist
Wenn meine Funktion f mit einer Variablen aufgerufen wird, möchte ich überprüfen, ob var ein Pandas-Datenrahmen ist: def f(var): if var == pd.DataFrame(): print "do stuff" Ich denke, die Lösung könnte recht einfach sein, aber auch mit def f(var): if var.values != None: print "do stuff" Ich kann es nicht …
129 python  pandas 

4
Verketten Sie eine Liste von Pandas-Datenrahmen
Ich habe eine Liste von Pandas-Datenrahmen, die ich zu einem Pandas-Datenrahmen kombinieren möchte. Ich benutze Python 2.7.10 und Pandas 0.16.2 Ich habe die Liste der Datenrahmen erstellt aus: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) Dies …

8
Wie kann ich separate Pandas DataFrames als Unterzeichnungen zeichnen?
Ich habe einige Pandas DataFrames, die dieselbe Werteskala verwenden, aber unterschiedliche Spalten und Indizes haben. Beim Aufrufen df.plot()erhalte ich separate Plotbilder. Was ich wirklich möchte, ist, dass sie alle in derselben Handlung wie Nebenhandlungen sind, aber ich finde leider keine Lösung dafür, wie und würde mich über Hilfe sehr freuen.

7
Entfernen der Indexspalte in Pandas beim Lesen einer CSV
Ich habe den folgenden Code, der eine CSV-Datei importiert. Es gibt 3 Spalten und ich möchte die ersten beiden auf Variablen setzen. Wenn ich die zweite Spalte auf die Variable "Effizienz" setze, wird auch die Indexspalte angeheftet. Wie kann ich die Indexspalte entfernen? df = pd.DataFrame.from_csv('Efficiency_Data.csv', header=0, parse_dates=False) energy = …
127 python  pandas 

7
Ersetzen von Pandas oder Numpy Nan durch None für MysqlDB
Ich versuche, einen Pandas-Datenrahmen (oder kann ein Numpy-Array verwenden) mit MysqlDB in eine MySQL-Datenbank zu schreiben. MysqlDB scheint 'nan' nicht zu verstehen und meine Datenbank gibt einen Fehler aus, der besagt, dass nan nicht in der Feldliste enthalten ist. Ich muss einen Weg finden, das 'nan' in einen NoneType umzuwandeln. …

3
Mehrere Aggregationen derselben Spalte mit pandas GroupBy.agg ()
Gibt es eine integrierte Pandas-Methode, um zwei verschiedene Aggregationsfunktionen f1, f2auf dieselbe Spalte anzuwenden df["returns"], ohne agg()mehrmals aufrufen zu müssen ? Beispieldatenrahmen: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 * np.random.randn(10), "dummy" …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.