Programmierung dataframe

7

Pandas: Summe der DataFrame-Zeilen für bestimmte Spalten

Ich habe den folgenden DataFrame: In [1]: import pandas as pd df = pd.DataFrame({'a': [1,2,3], 'b': [2,3,4], 'c':['dd','ee','ff'], 'd':[5,9,1]}) df Out [1]: a b c d 0 1 2 dd 5 1 2 3 ee 9 2 3 4 ff 1 Ich möchte eine Spalte hinzufügen, 'e'die die Summe der …

153 python pandas dataframe sum

6

Soll ich einen data.frame oder eine Matrix verwenden?

Wann sollte man a verwenden data.frameund wann ist es besser, a zu verwenden matrix? Beide halten Daten in einem rechteckigen Format, so dass es manchmal unklar ist. Gibt es allgemeine Faustregeln für die Verwendung des Datentyps?

152 r matrix dataframe r-faq

9

Bestimmen Sie die Datentypen der Spalten eines Datenrahmens

Ich benutze R und habe mit Daten in einen Datenrahmen geladen read.csv(). Wie bestimme ich den Datentyp jeder Spalte im Datenrahmen?

152 r dataframe types

8

Mehrere Variablen pro Gruppe aggregieren / zusammenfassen (z. B. Summe, Mittelwert)

Von einem Datenrahmen, gibt es eine einfache Möglichkeit , aggregieren ( sum, mean, maxet c) gleichzeitig mehrere Variablen? Nachfolgend einige Beispieldaten: library(lubridate) days = 365*2 date = seq(as.Date("2000-01-01"), length = days, by = "day") year = year(date) month = month(date) x1 = cumsum(rnorm(days, 0.05)) x2 = cumsum(rnorm(days, 0.05)) df1 = …

152 r dataframe data.table aggregate r-faq

8

python dataframe pandas drop column mit int

Ich verstehe, dass Sie zum Löschen einer Spalte df.drop verwenden ('Spaltenname', Achse = 1). Gibt es eine Möglichkeit, eine Spalte mithilfe eines numerischen Index anstelle des Spaltennamens zu löschen?

152 python pandas dataframe

5

Wie entferne ich die Spalte "Unbenannt: 0" in einem Pandas DataFrame?

Ich habe eine Situation, in der ich manchmal, wenn ich eine csvvon lese df, eine unerwünschte indexähnliche Spalte mit dem Namen bekomme unnamed:0. file.csv ,A,B,C 0,1,2,3 1,4,5,6 2,7,8,9 Die CSV wird folgendermaßen gelesen: pd.read_csv('file.csv') Unnamed: 0 A B C 0 0 1 2 3 1 1 4 5 6 2 …

152 python pandas csv dataframe

3

Logische Operatoren für die boolesche Indizierung in Pandas

Ich arbeite mit dem booleschen Index in Pandas. Die Frage ist, warum die Aussage: a[(a['some_column']==some_number) & (a['some_other_column']==some_other_number)] funktioniert gut während a[(a['some_column']==some_number) and (a['some_other_column']==some_other_number)] Exits mit Fehler? Beispiel: a=pd.DataFrame({'x':[1,1],'y':[10,20]}) In: a[(a['x']==1)&(a['y']==10)] Out: x y 0 1 10 In: a[(a['x']==1) and (a['y']==10)] Out: ValueError: The truth value of an array with more …

152 python pandas dataframe boolean filtering

3

Pandas erstellen einen leeren DataFrame mit nur Spaltennamen

Ich habe einen dynamischen DataFrame, der einwandfrei funktioniert, aber wenn dem DataFrame keine Daten hinzugefügt werden müssen, wird eine Fehlermeldung angezeigt. Und deshalb brauche ich eine Lösung, um einen leeren DataFrame nur mit den Spaltennamen zu erstellen. Im Moment habe ich so etwas: df = pd.DataFrame(columns=COLUMN_NAMES) # Note that there …

151 python pandas dataframe

10

Der schnellste Weg, NAs in einer großen Datentabelle zu ersetzen

Ich habe eine große Datentabelle mit vielen fehlenden Werten, die über die ~ 200.000 Zeilen und 200 Spalten verteilt sind. Ich möchte diese NA-Werte so effizient wie möglich auf Nullen umcodieren. Ich sehe zwei Möglichkeiten: 1: Konvertieren zu einem data.frame und Verwendung etwas wie diese 2: Irgendeine Art von kühlem …

150 r performance dataframe data.table

8

Wiederholen Sie jede Datenzeile so oft, wie in einer Spalte angegeben

df <- data.frame(var1 = c('a', 'b', 'c'), var2 = c('d', 'e', 'f'), freq = 1:3) Was ist der einfachste Weg, um jede Zeile um die ersten beiden Spalten des obigen Datenrahmens zu erweitern, sodass jede Zeile so oft wiederholt wird, wie in der Spalte 'freq' angegeben? Mit anderen Worten, gehen …

150 r dataframe replicate

8

Können Pandas Daten automatisch erkennen?

Heute war ich positiv überrascht, dass Pandas beim Lesen von Daten aus einer Datendatei (zum Beispiel) Wertetypen erkennen kann: df = pandas.read_csv('test.dat', delimiter=r"\s+", names=['col1','col2','col3']) Zum Beispiel kann es folgendermaßen überprüft werden: for i, r in df.iterrows(): print type(r['col1']), type(r['col2']), type(r['col3']) Insbesondere Ganzzahlen, Gleitkommazahlen und Zeichenfolgen wurden korrekt erkannt. Ich habe …

150 python date types dataframe pandas

12

Ersetzen von Leerwerten (Leerzeichen) durch NaN in Pandas

Ich möchte alle Werte in einem Pandas-Datenrahmen finden, die Leerzeichen (eine beliebige Menge) enthalten, und diese Werte durch NaNs ersetzen. Irgendwelche Ideen, wie dies verbessert werden kann? Grundsätzlich möchte ich das umdrehen: A B C 2000-01-01 -0.532681 foo 0 2000-01-02 1.490752 bar 1 2000-01-03 -1.387326 foo 2 2000-01-04 0.814772 baz …

150 python pandas dataframe

11

Entfernen Sie Spalten aus dem Datenrahmen, in denen ALLE Werte NA sind

Ich habe Probleme mit einem Datenrahmen und konnte dieses Problem nicht wirklich selbst lösen: Der Datenrahmen hat beliebige Eigenschaften als Spalten und jede Zeile repräsentiert einen Datensatz . Die Frage ist: Wie werden Spalten entfernt, bei denen für ALLE Zeilen der Wert NA ist ?

149 r apply dataframe

7

Konvertieren Sie Zeilennamen in die erste Spalte

Ich habe einen Datenrahmen wie diesen: df VALUE ABS_CALL DETECTION P-VALUE 1007_s_at "957.729231881542" "P" "0.00486279317241156" 1053_at "320.632701283368" "P" "0.0313356324173416" 117_at "429.842323161046" "P" "0.0170004527476119" 121_at "2395.7364289242" "P" "0.0114473584876183" 1255_g_at "116.493632746934" "A" "0.39799368200131" 1294_at "739.927122116896" "A" "0.0668649772942343" Ich möchte die Zeilennamen in die erste Spalte konvertieren. Derzeit verwende ich so etwas, um …

146 r dataframe col rowname

5

Wie teile ich Daten in 3 Sätze auf (Zug, Validierung und Test)?

Ich habe einen Pandas-Datenrahmen und möchte ihn in 3 separate Sätze aufteilen. Ich weiß, dass man mit train_test_split von sklearn.cross_validationdie Daten in zwei Sätze (Zug und Test) aufteilen kann. Ich konnte jedoch keine Lösung für die Aufteilung der Daten in drei Sätze finden. Am liebsten hätte ich die Indizes der …

145 pandas numpy dataframe machine-learning scikit-learn

Als «dataframe» getaggte Fragen