Ich habe einen Datenrahmen dfund verwende mehrere Spalten daraus, um groupby: df['col1','col2','col3','col4'].groupby(['col1','col2']).mean() Auf die obige Weise bekomme ich fast die Tabelle (Datenrahmen), die ich brauche. Was fehlt, ist eine zusätzliche Spalte, die die Anzahl der Zeilen in jeder Gruppe enthält. Mit anderen Worten, ich habe gemein, aber ich würde auch …
Was ist Pivot? Wie schwenke ich? Ist das ein Dreh- und Angelpunkt? Langformat zu Breitformat? Ich habe viele Fragen zu Pivot-Tabellen gesehen. Selbst wenn sie nicht wissen, dass sie nach Pivot-Tabellen fragen, sind sie es normalerweise. Es ist praktisch unmöglich, eine kanonische Frage und Antwort zu schreiben, die alle Aspekte …
Ich habe einen Pandas-Datenrahmen dfwie: a b A 1 A 2 B 5 B 5 B 4 C 6 Ich möchte nach der ersten Spalte gruppieren und die zweite Spalte als Listen in Zeilen erhalten : A [1,2] B [5,5,4] C [6] Ist es möglich, so etwas mit pandas groupby …
Wie finde ich alle Zeilen in einem Pandas-Datenrahmen, die countnach der Gruppierung nach ['Sp','Mt']Spalten den Maximalwert für die Spalte haben ? Beispiel 1: Der folgende Datenrahmen, nach dem ich gruppiere ['Sp','Mt']: Sp Mt Value count 0 MM1 S1 a **3** 1 MM1 S1 n 2 2 MM1 S3 cb 5 …
Wie greife ich mit dem Schlüssel auf den entsprechenden groupby-Datenrahmen in einem groupby-Objekt zu? Mit folgender Gruppe: rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'bar'] * 3, 'B': rand.randn(6), 'C': rand.randint(0, 20, 6)}) gb = df.groupby(['A']) Ich kann es durchlaufen, um die Schlüssel und Gruppen zu erhalten: In [11]: for …
Ich habe einen DataFrame mit vielen fehlenden Werten in Spalten, nach denen ich gruppieren möchte: import pandas as pd import numpy as np df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']}) In [4]: df.groupby('b').groups Out[4]: {'4': [0], '6': [2]} Sehen Sie, dass Pandas die Zeilen mit NaN-Zielwerten gelöscht …
Gibt es eine integrierte Pandas-Methode, um zwei verschiedene Aggregationsfunktionen f1, f2auf dieselbe Spalte anzuwenden df["returns"], ohne agg()mehrmals aufrufen zu müssen ? Beispieldatenrahmen: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 * np.random.randn(10), "dummy" …
Ich habe einen Datenrahmen mit drei Zeichenfolgenspalten. Ich weiß, dass der einzige Wert in der 3. Spalte für jede Kombination der ersten beiden gültig ist. Um die Daten zu bereinigen, muss ich nach Datenrahmen nach den ersten beiden Spalten gruppieren und für jede Kombination den häufigsten Wert der dritten Spalte …
Ich möchte mehrere Zeichenfolgen in einem Datenrahmen zusammenführen, der auf einer Gruppierung in Pandas basiert. Dies ist mein bisheriger Code: import pandas as pd from io import StringIO data = StringIO(""" "name1","hej","2014-11-01" "name1","du","2014-11-02" "name1","aj","2014-12-01" "name1","oj","2014-12-02" "name2","fin","2014-11-01" "name2","katt","2014-11-02" "name2","mycket","2014-12-01" "name2","lite","2014-12-01" """) # load string as stream into dataframe df = pd.read_csv(data,header=0, …
Betrachten Sie eine CSV-Datei: string,date,number a string,2/5/11 9:16am,1.0 a string,3/5/11 10:44pm,2.0 a string,4/22/11 12:07pm,3.0 a string,4/22/11 12:10pm,4.0 a string,4/29/11 11:59am,1.0 a string,5/2/11 1:41pm,2.0 a string,5/2/11 2:02pm,3.0 a string,5/2/11 2:56pm,4.0 a string,5/2/11 3:00pm,5.0 a string,5/2/14 3:02pm,6.0 a string,5/2/14 3:18pm,7.0 Ich kann dies einlesen und die Datumsspalte in das Datum / Uhrzeit-Format …
Dies sollte einfach sein, aber das Nächste, was ich gefunden habe, ist dieser Beitrag: pandas: Füllen fehlender Werte innerhalb einer Gruppe , und ich kann mein Problem immer noch nicht lösen ... Angenommen, ich habe den folgenden Datenrahmen df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], …
Es wird versucht, eine neue Spalte aus der groupbyBerechnung zu erstellen . Im folgenden Code erhalte ich die korrekt berechneten Werte für jedes Datum (siehe Gruppe unten), aber wenn ich versuche, eine neue Spalte ( df['Data4']) damit zu erstellen, erhalte ich NaN. Ich versuche also, eine neue Spalte im Datenrahmen …
Ich habe einen Datenrahmen, der so aussieht: Company Name Organisation Name Amount 10118 Vifor Pharma UK Ltd Welsh Assoc for Gastro & Endo 2700.00 10119 Vifor Pharma UK Ltd Welsh IBD Specialist Group, 169.00 10120 Vifor Pharma UK Ltd West Midlands AHSN 1200.00 10121 Vifor Pharma UK Ltd Whittington Hospital …
Wie gruppiere ich die Werte des Pandas-Datenrahmens und wähle aus jeder Gruppe die neuesten (nach Datum) aus? Beispiel: Ein Datenrahmen ist nach Datum sortiert: id product date 0 220 6647 2014-09-01 1 220 6647 2014-09-03 2 220 6647 2014-10-16 3 826 3380 2014-11-11 4 826 3380 2014-12-09 5 826 3380 …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.