Mit dem bekannten Datensatz "Überleben der Passagiere auf der Titanic" bekomme ich ein seltsames Verhalten, wenn ich den Tarif gegen das Alter zeichne (siehe unten). Ohne eine Einschränkung für Pclass ist die Korrelation positiv. Im Gegensatz dazu scheinen die Korrelationen für alle Klassen negativ zu sein.
Ich nehme an, das ist eine Form von "Simpson's Paradox". Aber ich bin mir nicht sicher. Wie kann dieses Verhalten für diesen Sonderfall am besten erklärt werden?
# df is a pandas dataframe with the titanic data set
# see https://www.kaggle.com/c/titanic
import seaborn as sns
sns.jointplot("Age", "Fare", df, kind='reg')
sns.lmplot("Age", "Fare", df, col="Pclass")