Programmierung pandas

3

Extrahieren von Tagen aus einem numpy.timedelta64-Wert

Ich verwende pandas / python und habe zwei Datumszeitreihen s1 und s2, die mit der Funktion 'to_datetime' in einem Feld des df generiert wurden, das Datums- / Uhrzeitangaben enthält. Wenn ich s1 von s2 subtrahiere s3 = s2 - s1 Ich bekomme eine Serie, s3, vom Typ timedelta64 [ns] 0 …

87 python numpy pandas

5

Löschen Sie Zeilen mit leeren Zellen aus einem Pandas DataFrame

Ich habe eine pd.DataFrame, die durch Parsen einiger Excel-Tabellen erstellt wurde. Eine Spalte enthält leere Zellen. Im Folgenden finden Sie beispielsweise die Ausgabe für die Häufigkeit dieser Spalte. 32320 Datensätze haben fehlende Werte für Tenant . >>> value_counts(Tenant, normalize=False) 32320 Thunderhead 8170 Big Data Others 5700 Cloud Cruiser 5700 Partnerpedia …

87 python pandas

5

Erstellen Sie mehr als ein Diagramm in derselben IPython Notebook-Zelle

Ich habe mein IPython Notebook mit gestartet ipython notebook --pylab inline Dies ist mein Code in einer Zelle df['korisnika'].plot() df['osiguranika'].plot() Dies funktioniert gut, es werden zwei Linien gezeichnet, aber auf demselben Diagramm. Ich möchte jede Linie in einem separaten Diagramm zeichnen. Und es wäre großartig, wenn die Charts nebeneinander und …

86 python pandas ipython ipython-notebook

3

Pandas summieren sich nach Gruppen, schließen jedoch bestimmte Spalten aus

Was ist der beste Weg, um einen Groupby in einem Pandas-Datenrahmen durchzuführen, aber einige Spalten von diesem Groupby auszuschließen? zB habe ich folgenden Datenrahmen: Code Country Item_Code Item Ele_Code Unit Y1961 Y1962 Y1963 2 Afghanistan 15 Wheat 5312 Ha 10 20 30 2 Afghanistan 25 Maize 5312 Ha 10 20 …

86 python pandas group-by aggregate

5

Was ist der Unterschied zwischen Größe und Anzahl bei Pandas?

Das ist der Unterschied zwischen groupby("x").countund groupby("x").sizebei Pandas? Schließt die Größe nur Null aus?

86 python pandas numpy nan difference

1

Seaborn mit wissenschaftlicher Notation in der Heatmap für dreistellige Zahlen

Ich erstelle eine Heatmap aus einer pandas pivot_table wie folgt: table2 = pd.pivot_table(df,values='control',columns='Year',index='Region',aggfunc=np.sum) sns.heatmap(table2,annot=True,cmap='Blues') Es wird eine Wärmekarte wie unten gezeigt erstellt. Sie können sehen, dass die Zahlen nicht riesig sind (max. 750), aber es zeigt sie in wissenschaftlicher Notation. Wenn ich die Tabelle selbst betrachte, ist dies nicht der …

86 python pandas matplotlib seaborn

8

Teilen Sie einen großen Pandas-Datenrahmen

Ich habe einen großen Datenrahmen mit 423244 Zeilen. Ich möchte dies in 4 aufteilen. Ich habe den folgenden Code ausprobiert, der einen Fehler ergab.ValueError: array split does not result in an equal division for item in np.split(df, 4): print item Wie kann man diesen Datenrahmen in 4 Gruppen aufteilen?

86 python pandas

9

Wie kann eine Pandas-Datenrahmen-Zeichenfolgenspalte in Kleinbuchstaben geschrieben werden, wenn Werte fehlen?

Der folgende Code funktioniert nicht. import pandas as pd import numpy as np df=pd.DataFrame(['ONE','Two', np.nan],columns=['x']) xLower = df["x"].map(lambda x: x.lower()) Wie soll ich es optimieren, um xLower = ['eins', 'zwei', np.nan] zu erhalten? Effizienz ist wichtig, da der reale Datenrahmen riesig ist.

86 python string pandas missing-data

8

Importieren Sie eine CSV-Datei als Pandas-DataFrame

Was ist die Python-Methode zum Einlesen einer CSV-Datei in einen Pandas-DataFrame (den ich dann für statistische Operationen verwenden kann, der Spalten mit unterschiedlichen Typen usw. haben kann)? Meine CSV-Datei "value.txt"enthält folgenden Inhalt: Date,"price","factor_1","factor_2" 2012-06-11,1600.20,1.255,1.548 2012-06-12,1610.02,1.258,1.554 2012-06-13,1618.07,1.249,1.552 2012-06-14,1624.40,1.253,1.556 2012-06-15,1626.15,1.258,1.552 2012-06-16,1626.15,1.263,1.558 2012-06-17,1626.15,1.264,1.572 In R würden wir diese Datei lesen mit: price <- …

85 python pandas csv dataframe

13

ValueError: numpy.dtype hat die falsche Größe. Versuchen Sie erneut zu kompilieren

Ich habe gerade das Paket pandas and statsmodels auf meinem Python 2.7 installiert. Als ich versuchte, "Pandas als pd importieren", wurde diese Fehlermeldung ausgegeben. Kann jemand helfen? Vielen Dank!!! numpy.dtype has the wrong size, try recompiling Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\analytics\ext\python27\lib\site-packages\statsmodels-0.5.0-py2.7-win32.egg\statsmodels\formula\__init__.py", line …

85 python numpy install pandas statsmodels

5

Pandas gruppieren sich nach kumulierter Summe

Ich möchte meinem Pandas-Datenrahmen eine kumulative Summenspalte hinzufügen, damit: name | day | no -----|-----------|---- Jack | Monday | 10 Jack | Tuesday | 20 Jack | Tuesday | 10 Jack | Wednesday | 50 Jill | Monday | 40 Jill | Wednesday | 110 wird: Jack | Monday | …

85 python pandas

1

Multi-Index-Sortierung in Pandas

Ich habe einen Datensatz mit Spalten mit mehreren Indizes in einem Pandas df, den ich nach Werten in einer bestimmten Spalte sortieren möchte. Ich habe versucht, sortindex und sortlevel zu verwenden, konnte aber nicht die gewünschten Ergebnisse erzielen. Mein Datensatz sieht aus wie: Group1 Group2 A B C A B …

85 python sorting pandas multi-index

13

Liste der höchsten Korrelationspaare aus einer großen Korrelationsmatrix in Pandas?

Wie finden Sie die Top-Korrelationen in einer Korrelationsmatrix mit Pandas? Es gibt viele Antworten, wie dies mit R gemacht werden kann ( Korrelationen als geordnete Liste anzeigen, nicht als große Matrix oder effiziente Methode, um stark korrelierte Paare aus großen Datenmengen in Python oder R zu erhalten ), aber ich …

85 python pandas correlation

6

Pandas: Komplexer Filter für Zeilen von DataFrame

Ich möchte Zeilen nach einer Funktion jeder Zeile filtern, z def f(row): return sin(row['velocity'])/np.prod(['masses']) > 5 df = pandas.DataFrame(...) filtered = df[apply_to_all_rows(df, f)] Oder für ein anderes komplexeres, erfundenes Beispiel: def g(row): if row['col1'].method1() == 1: val = row['col1'].method2() / row['col1'].method3(row['col3'], row['col4']) else: val = row['col2'].method5(row['col6']) return np.sin(val) df = …

85 python pandas

8

Pandas: rollierender Mittelwert nach Zeitintervall

Ich bin neu bei Pandas ... Ich habe eine Reihe von Umfragedaten. Ich möchte einen rollierenden Mittelwert berechnen, um eine Schätzung für jeden Tag basierend auf einem dreitägigen Fenster zu erhalten. Wie ich aus dieser Frage verstehe , berechnen die Funktionen rolling_ * das Fenster basierend auf einer bestimmten Anzahl …

85 python pandas time-series

Als «pandas» getaggte Fragen