Ich habe einen Datenrahmen mit Wiederholungswerten in Spalte A. Ich möchte Duplikate löschen und die Zeile mit dem höchsten Wert in Spalte B beibehalten.
Also das:
A B
1 10
1 20
2 30
2 40
3 10
Sollte sich in Folgendes verwandeln:
A B
1 20
2 40
3 10
Wes hat einige nette Funktionen hinzugefügt, um Duplikate zu löschen: http://wesmckinney.com/blog/?p=340 . AFAICT wurde jedoch für exakte Duplikate entwickelt, sodass Kriterien für die Auswahl der beibehaltenen Zeilen nicht erwähnt werden.
Ich vermute, es gibt wahrscheinlich einen einfachen Weg, dies zu tun - vielleicht so einfach wie das Sortieren des Datenrahmens vor dem Löschen von Duplikaten -, aber ich kenne die interne Logik von groupby nicht gut genug, um es herauszufinden. Irgendwelche Vorschläge?