Ist das Simpsons Paradoxon im Titanic-Datensatz?


8

Mit dem bekannten Datensatz "Überleben der Passagiere auf der Titanic" bekomme ich ein seltsames Verhalten, wenn ich den Tarif gegen das Alter zeichne (siehe unten). Ohne eine Einschränkung für Pclass ist die Korrelation positiv. Im Gegensatz dazu scheinen die Korrelationen für alle Klassen negativ zu sein.

Ich nehme an, das ist eine Form von "Simpson's Paradox". Aber ich bin mir nicht sicher. Wie kann dieses Verhalten für diesen Sonderfall am besten erklärt werden?

# df is a pandas dataframe with the titanic data set
# see https://www.kaggle.com/c/titanic

import seaborn as sns
sns.jointplot("Age", "Fare", df, kind='reg')

Tarif gegen Alter für alle Passagierklassen

sns.lmplot("Age", "Fare", df, col="Pclass")

Geben Sie hier die Bildbeschreibung ein


4
Sieht für mich so aus, als ob die lineare Anpassung so schlecht ist, dass die Richtung fast irrelevant ist.
Minnow

Antworten:


9

Obwohl Simpsons Paradoxon (oder Simpsons Umkehrung) in 3-Wege-Kontingenztabellen häufiger erwähnt wird als in der Korrelation zwischen kontinuierlichen Variablen, ist es dasselbe Phänomen.

Hier scheint die Erklärung in einfachen Worten klar zu sein: Obwohl in jeder Klasse eine leichte Tendenz besteht, die Tarife mit dem Alter zu senken, sind Menschen in niedrigeren Klassen tendenziell jünger. Das heißt, jüngere Menschen reisen tendenziell in niedrigere Klassen und daher zahlen jüngere Menschen tendenziell niedrigere Tarife.

Über die Tatsache, dass die Menschen in den unteren Klassen jünger sind, können Sie in der Handlung sehen, dass es viele Kinder (Alter <18) in der 3. Klasse gibt, weniger von ihnen in der 2. Klasse (deutlich weniger Menschen in 0-20 als in 20-40) und sehr wenige Kinder in der 1. Klasse. Ein Vergleich der 40-60- und 60-80-Bänder mit dem 20-40-Band würde auch zeigen, dass Menschen in niedrigeren Klassen tendenziell jünger sind.

Zusammenfassend: Ja, es ist ein Vorkommen des Simpson-Paradoxons. Jüngere Menschen reisen in der Regel in niedrigeren Klassen, und daher zahlen jüngere Menschen tendenziell niedrigere Tarife, auch wenn sie tendenziell etwas mehr bezahlen als ältere Menschen in derselben Klasse.

Und nur als Nebenbemerkung: Dies ist nicht das einzige Vorkommen von Simpsons Paradoxon im Titanic-Datensatz. In https://select-statistics.co.uk/blog/hidden-data-and-surviving-a-sinking-ship-simpsons-paradox/ oder https://www2.stat.duke.edu/courses/Fall12/ sta611 / SimpsonsParadox.pdf ein anderer wird bemerkt.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.