Als «pandas» getaggte Fragen

Pandas ist eine Python-Bibliothek zur Datenmanipulation und -analyse, z. B. Datenrahmen, mehrdimensionale Zeitreihen und Querschnittsdatensätze, die häufig in Statistiken, experimentellen wissenschaftlichen Ergebnissen, Ökonometrie oder Finanzen verwendet werden. Pandas ist eine der wichtigsten Data Science-Bibliotheken in Python.

3
Extrahieren von Tagen aus einem numpy.timedelta64-Wert
Ich verwende pandas / python und habe zwei Datumszeitreihen s1 und s2, die mit der Funktion 'to_datetime' in einem Feld des df generiert wurden, das Datums- / Uhrzeitangaben enthält. Wenn ich s1 von s2 subtrahiere s3 = s2 - s1 Ich bekomme eine Serie, s3, vom Typ timedelta64 [ns] 0 …
87 python  numpy  pandas 

5
Löschen Sie Zeilen mit leeren Zellen aus einem Pandas DataFrame
Ich habe eine pd.DataFrame, die durch Parsen einiger Excel-Tabellen erstellt wurde. Eine Spalte enthält leere Zellen. Im Folgenden finden Sie beispielsweise die Ausgabe für die Häufigkeit dieser Spalte. 32320 Datensätze haben fehlende Werte für Tenant . >>> value_counts(Tenant, normalize=False) 32320 Thunderhead 8170 Big Data Others 5700 Cloud Cruiser 5700 Partnerpedia …
87 python  pandas 




1
Seaborn mit wissenschaftlicher Notation in der Heatmap für dreistellige Zahlen
Ich erstelle eine Heatmap aus einer pandas pivot_table wie folgt: table2 = pd.pivot_table(df,values='control',columns='Year',index='Region',aggfunc=np.sum) sns.heatmap(table2,annot=True,cmap='Blues') Es wird eine Wärmekarte wie unten gezeigt erstellt. Sie können sehen, dass die Zahlen nicht riesig sind (max. 750), aber es zeigt sie in wissenschaftlicher Notation. Wenn ich die Tabelle selbst betrachte, ist dies nicht der …

8
Teilen Sie einen großen Pandas-Datenrahmen
Ich habe einen großen Datenrahmen mit 423244 Zeilen. Ich möchte dies in 4 aufteilen. Ich habe den folgenden Code ausprobiert, der einen Fehler ergab.ValueError: array split does not result in an equal division for item in np.split(df, 4): print item Wie kann man diesen Datenrahmen in 4 Gruppen aufteilen?
86 python  pandas 


8
Importieren Sie eine CSV-Datei als Pandas-DataFrame
Was ist die Python-Methode zum Einlesen einer CSV-Datei in einen Pandas-DataFrame (den ich dann für statistische Operationen verwenden kann, der Spalten mit unterschiedlichen Typen usw. haben kann)? Meine CSV-Datei "value.txt"enthält folgenden Inhalt: Date,"price","factor_1","factor_2" 2012-06-11,1600.20,1.255,1.548 2012-06-12,1610.02,1.258,1.554 2012-06-13,1618.07,1.249,1.552 2012-06-14,1624.40,1.253,1.556 2012-06-15,1626.15,1.258,1.552 2012-06-16,1626.15,1.263,1.558 2012-06-17,1626.15,1.264,1.572 In R würden wir diese Datei lesen mit: price <- …
85 python  pandas  csv  dataframe 

13
ValueError: numpy.dtype hat die falsche Größe. Versuchen Sie erneut zu kompilieren
Ich habe gerade das Paket pandas and statsmodels auf meinem Python 2.7 installiert. Als ich versuchte, "Pandas als pd importieren", wurde diese Fehlermeldung ausgegeben. Kann jemand helfen? Vielen Dank!!! numpy.dtype has the wrong size, try recompiling Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\analytics\ext\python27\lib\site-packages\statsmodels-0.5.0-py2.7-win32.egg\statsmodels\formula\__init__.py", line …

5
Pandas gruppieren sich nach kumulierter Summe
Ich möchte meinem Pandas-Datenrahmen eine kumulative Summenspalte hinzufügen, damit: name | day | no -----|-----------|---- Jack | Monday | 10 Jack | Tuesday | 20 Jack | Tuesday | 10 Jack | Wednesday | 50 Jill | Monday | 40 Jill | Wednesday | 110 wird: Jack | Monday | …
85 python  pandas 

1
Multi-Index-Sortierung in Pandas
Ich habe einen Datensatz mit Spalten mit mehreren Indizes in einem Pandas df, den ich nach Werten in einer bestimmten Spalte sortieren möchte. Ich habe versucht, sortindex und sortlevel zu verwenden, konnte aber nicht die gewünschten Ergebnisse erzielen. Mein Datensatz sieht aus wie: Group1 Group2 A B C A B …


6
Pandas: Komplexer Filter für Zeilen von DataFrame
Ich möchte Zeilen nach einer Funktion jeder Zeile filtern, z def f(row): return sin(row['velocity'])/np.prod(['masses']) > 5 df = pandas.DataFrame(...) filtered = df[apply_to_all_rows(df, f)] Oder für ein anderes komplexeres, erfundenes Beispiel: def g(row): if row['col1'].method1() == 1: val = row['col1'].method2() / row['col1'].method3(row['col3'], row['col4']) else: val = row['col2'].method5(row['col6']) return np.sin(val) df = …
85 python  pandas 

8
Pandas: rollierender Mittelwert nach Zeitintervall
Ich bin neu bei Pandas ... Ich habe eine Reihe von Umfragedaten. Ich möchte einen rollierenden Mittelwert berechnen, um eine Schätzung für jeden Tag basierend auf einem dreitägigen Fenster zu erhalten. Wie ich aus dieser Frage verstehe , berechnen die Funktionen rolling_ * das Fenster basierend auf einer bestimmten Anzahl …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.