Programmierung pandas

7

Wie werden Pandas DataFrame von Floats mithilfe einer Formatzeichenfolge für Spalten angezeigt?

Ich möchte einen Pandas-Datenrahmen mit einem bestimmten Format unter Verwendung von print()und IPython anzeigen display(). Beispielsweise: df = pd.DataFrame([123.4567, 234.5678, 345.6789, 456.7890], index=['foo','bar','baz','quux'], columns=['cost']) print df cost foo 123.4567 bar 234.5678 baz 345.6789 quux 456.7890 Ich möchte das irgendwie zum Drucken zwingen cost foo $123.46 bar $234.57 baz $345.68 quux …

164 python python-2.7 pandas ipython dataframe

10

Pandas Spalte von Listen, erstellen Sie eine Zeile für jedes Listenelement

Ich habe einen Datenrahmen, in dem einige Zellen Listen mit mehreren Werten enthalten. Anstatt mehrere Werte in einer Zelle zu speichern, möchte ich den Datenrahmen so erweitern, dass jedes Element in der Liste eine eigene Zeile erhält (mit denselben Werten in allen anderen Spalten). Also wenn ich habe: import pandas …

163 python pandas list

13

Vergleichen Sie zwei DataFrames und geben Sie ihre Unterschiede nebeneinander aus

Ich versuche genau hervorzuheben, was sich zwischen zwei Datenrahmen geändert hat. Angenommen, ich habe zwei Python Pandas-Datenrahmen: "StudentRoster Jan-1": id Name score isEnrolled Comment 111 Jack 2.17 True He was late to class 112 Nick 1.11 False Graduated 113 Zoe 4.12 True "StudentRoster Jan-2": id Name score isEnrolled Comment 111 …

162 python html pandas dataframe panel

5

Formatieren / Unterdrücken der wissenschaftlichen Notation aus den Ergebnissen der Python Pandas-Aggregation

Wie kann man das Format für die Ausgabe einer Groupby-Operation in Pandas ändern, die eine wissenschaftliche Notation für sehr große Zahlen erzeugt? Ich weiß, wie man Zeichenfolgen in Python formatiert, aber ich bin ratlos, wenn es darum geht, sie hier anzuwenden. df1.groupby('dept')['data1'].sum() dept value1 1.192433e+08 value2 1.293066e+08 value3 1.077142e+08 Dies …

162 python pandas floating-point scientific-notation number-formatting

3

Pandas erhalten in jeder Gruppe die höchsten n Datensätze

Angenommen, ich habe Pandas DataFrame wie folgt: >>> df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4],'value':[1,2,3,1,2,3,4,1,1]}) >>> df id value 0 1 1 1 1 2 2 1 3 3 2 1 4 2 2 5 2 3 6 2 4 7 3 1 8 4 1 Ich möchte einen neuen DataFrame mit den beiden …

161 python pandas greatest-n-per-group window-functions top-n

4

Warum wurden Pandas 2012 in Python schneller zusammengeführt als data.table in R?

Ich bin kürzlich auf die Pandas- Bibliothek für Python gestoßen, die laut diesem Benchmark sehr schnelle In-Memory-Zusammenführungen durchführt. Es ist sogar schneller als das data.table- Paket in R (meine bevorzugte Sprache für die Analyse). Warum ist pandasso viel schneller als data.table? Liegt es an einem inhärenten Geschwindigkeitsvorteil, den Python gegenüber …

160 python r join data.table pandas

8

NumPy oder Pandas: Behalten Sie den Array-Typ als Ganzzahl bei, während Sie einen NaN-Wert haben

Gibt es eine bevorzugte Möglichkeit, den Datentyp eines numpyArrays als int( int64oder was auch immer) festzuhalten, während ein Element weiterhin als aufgeführt ist numpy.NaN? Insbesondere konvertiere ich eine interne Datenstruktur in einen Pandas DataFrame. In unserer Struktur haben wir Spalten vom Typ Integer, die noch NaNs haben (aber der d-Typ …

160 python numpy int pandas type-conversion

5

Führen Sie zwei Datenrahmen nach Index zusammen

Hallo, ich habe die folgenden Datenrahmen: > df1 id begin conditional confidence discoveryTechnique 0 278 56 false 0.0 1 1 421 18 false 0.0 1 > df2 concept 0 A 1 B Wie füge ich die Indizes zusammen, um Folgendes zu erhalten: id begin conditional confidence discoveryTechnique concept 0 278 …

160 python pandas dataframe merge concat

6

Zufällige Zeilenauswahl im Pandas-Datenrahmen

Gibt es eine Möglichkeit, zufällige Zeilen aus einem DataFrame in Pandas auszuwählen? In R gibt es unter Verwendung des Fahrzeugpakets eine nützliche Funktion, some(x, n)die dem Kopf ähnlich ist, in diesem Beispiel jedoch 10 zufällige Zeilen aus x auswählt. Ich habe mir auch die Schnittdokumentation angesehen und es scheint nichts …

159 python pandas

9

Laden Sie Daten von txt mit Pandas

Ich lade eine txt-Datei, die eine Mischung aus Float- und String-Daten enthält. Ich möchte sie in einem Array speichern, in dem ich auf jedes Element zugreifen kann. Jetzt mache ich es einfach import pandas as pd data = pd.read_csv('output_list.txt', header = None) print data Dies ist die Struktur der Eingabedatei …

159 python io pandas

12

Python-Pandas: Entfernen Sie Duplikate in Spalte A, wobei die Zeile mit dem höchsten Wert in Spalte B beibehalten wird

Ich habe einen Datenrahmen mit Wiederholungswerten in Spalte A. Ich möchte Duplikate löschen und die Zeile mit dem höchsten Wert in Spalte B beibehalten. Also das: A B 1 10 1 20 2 30 2 40 3 10 Sollte sich in Folgendes verwandeln: A B 1 20 2 40 3 …

159 python duplicates pandas

6

Löschen Sie alle doppelten Zeilen in Python Pandas

Die pandas drop_duplicatesFunktion eignet sich hervorragend zum "Eindeutigen" eines Datenrahmens. Eines der zu übergebenden Schlüsselwortargumente ist jedoch take_last=Trueoder take_last=False, während ich alle Zeilen löschen möchte, die Duplikate in einer Teilmenge von Spalten sind. Ist das möglich? A B C 0 foo 0 A 1 foo 1 A 2 foo 1 …

157 python pandas duplicates

6

Fortschrittsanzeige während Pandas-Operationen

Ich führe regelmäßig Pandas-Operationen an Datenrahmen mit mehr als 15 Millionen Zeilen durch und würde gerne Zugriff auf eine Fortschrittsanzeige für bestimmte Operationen haben. Gibt es eine textbasierte Fortschrittsanzeige für Pandas Split-Apply-Combine-Operationen? Zum Beispiel in so etwas wie: df_users.groupby(['userID', 'requestDate']).apply(feature_rollup) Dabei feature_rolluphandelt es sich um eine etwas komplizierte Funktion, die …

157 python pandas ipython

11

Filtern von Pandas DataFrames nach Datumsangaben

Ich habe einen Pandas DataFrame mit einer Datumsspalte. Jetzt muss ich alle Zeilen im DataFrame herausfiltern, deren Daten außerhalb der nächsten zwei Monate liegen. Im Wesentlichen muss ich nur die Zeilen behalten, die innerhalb der nächsten zwei Monate liegen. Was ist der beste Weg, um dies zu erreichen?

156 python datetime pandas filtering dataframe

3

Verwandeln Sie Pandas Multi-Index in eine Spalte

Ich habe einen Datenrahmen mit 2 Indexstufen: value Trial measurement 1 0 13 1 3 2 4 2 0 NaN 1 12 3 0 34 Was ich daraus machen möchte: Trial measurement value 1 0 13 1 1 3 1 2 4 2 0 NaN 2 1 12 3 0 …

155 python pandas dataframe flatten multi-index

Als «pandas» getaggte Fragen