Pandas DataFrame: Ersetzen Sie alle Werte in einer Spalte basierend auf der Bedingung


132

Ich habe einen einfachen DataFrame wie den folgenden:

Pandas DataFrame

Ich möchte alle Werte aus der Spalte "Erste Staffel" auswählen und diejenigen, die über 1990 liegen, durch 1 ersetzen. In diesem Beispiel würde nur Baltimore Ravens das 1996 durch 1 ersetzen (wobei der Rest der Daten intakt bleibt).

Ich habe folgendes verwendet:

df.loc[(df['First Season'] > 1990)] = 1

Es werden jedoch alle Werte in dieser Zeile durch 1 ersetzt und nicht nur die Werte in der Spalte "Erste Staffel".

Wie kann ich nur die Werte aus dieser Spalte ersetzen?

Antworten:


226

Sie müssen diese Spalte auswählen:

In [41]:
df.loc[df['First Season'] > 1990, 'First Season'] = 1
df

Out[41]:
                 Team  First Season  Total Games
0      Dallas Cowboys          1960          894
1       Chicago Bears          1920         1357
2   Green Bay Packers          1921         1339
3      Miami Dolphins          1966          792
4    Baltimore Ravens             1          326
5  San Franciso 49ers          1950         1003

Die Syntax hier lautet also:

df.loc[<mask>(here mask is generating the labels to index) , <optional column(s)> ]

Sie können die Dokumente und auch die 10 Minuten zu Pandas überprüfen, die die Semantik zeigen

BEARBEITEN

Wenn Sie einen boolean Anzeige generieren möchten , dann können Sie nur die Booleschen Bedingung verwenden , um eine boolean Serie zu erzeugen und werfen die dtype auf intdiese konvertieren Trueund Falsezu 1und 0jeweils:

In [43]:
df['First Season'] = (df['First Season'] > 1990).astype(int)
df

Out[43]:
                 Team  First Season  Total Games
0      Dallas Cowboys             0          894
1       Chicago Bears             0         1357
2   Green Bay Packers             0         1339
3      Miami Dolphins             0          792
4    Baltimore Ravens             1          326
5  San Franciso 49ers             0         1003

40

Ein bisschen spät zur Party, aber trotzdem - ich bevorzuge die Verwendung von Numpy, wo:

import numpy as np
df['First Season'] = np.where(df['First Season'] > 1990, 1, df['First Season'])

2
Ich suchte nach einer Lösung zum bedingten Überschreiben von Spaltenwerten, die jedoch auf dem Wert einer anderen Spalte basiert: df ['col1'] = np.where (df ['id'] == '318431682259014', 'NEW', df ['col1']) Dies war die Lösung dafür.
user582175

Ich versuche dies für mehrere Bedingungen wie diese zu tun, aber ich bekomme es immer wieder ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all(). Was ich versuche zu tun, ist im Grunde df['A'] = np.where(df['B'] in some_values, df['A']*2, df['A]. Hat jemand eine Idee dazu?
M.Schalk

5
df['First Season'].loc[(df['First Season'] > 1990)] = 1

seltsam, dass niemand diese Antwort hat, der einzige fehlende Teil Ihres Codes ist die ['Erste Staffel'] direkt nach df und entfernen Sie einfach Ihre geschweiften Klammern darin.


Das ergibt ein 'SettingWithCopyWarning': Es ist besser, .loc für das Ganze zu verwenden, wie in EdChums Antwort.
ehrgeiziger

2

für einzelne Bedingung, dh. ( 'employrate'] > 70 )

       country        employrate alcconsumption
0  Afghanistan  55.7000007629394            .03
1      Albania  51.4000015258789           7.29
2      Algeria              50.5            .69
3      Andorra                            10.17
4       Angola  75.6999969482422           5.57

benutze das:

df.loc[df['employrate'] > 70, 'employrate'] = 7

       country  employrate alcconsumption
0  Afghanistan   55.700001            .03
1      Albania   51.400002           7.29
2      Algeria   50.500000            .69
3      Andorra         nan          10.17
4       Angola    7.000000           5.57

Daher lautet die Syntax hier:

df.loc[<mask>(here mask is generating the labels to index) , <optional column(s)> ]

Für mehrere Bedingungen dh. (df['employrate'] <=55) & (df['employrate'] > 50)

benutze das:

df['employrate'] = np.where(
   (df['employrate'] <=55) & (df['employrate'] > 50) , 11, df['employrate']
   )

out[108]:
       country  employrate alcconsumption
0  Afghanistan   55.700001            .03
1      Albania   11.000000           7.29
2      Algeria   11.000000            .69
3      Andorra         nan          10.17
4       Angola   75.699997           5.57

Daher lautet die Syntax hier:

 df['<column_name>'] = np.where((<filter 1> ) & (<filter 2>) , <new value>, df['column_name'])

0
df.loc[df['First season'] > 1990, 'First Season'] = 1

Erläuterung:

df.locakzeptiert zwei Argumente, 'Zeilenindex' und 'Spaltenindex'. Wir prüfen in der Spalte "Erste Saison", ob der Wert größer als 27 jedes Zeilenwerts ist, und ersetzen ihn dann durch 1.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.