Wie interpretiere ich diesen Streudiagramm?


12

Ich habe ein Streudiagramm mit einer Stichprobengröße, die der Anzahl der Personen auf der x-Achse und dem Durchschnittsgehalt auf der y-Achse entspricht. Ich versuche herauszufinden, ob sich die Stichprobengröße auf das Durchschnittsgehalt auswirkt.

Dies ist die Handlung:

Bildbeschreibung hier eingeben

Wie interpretiere ich diese Handlung?


3
Wenn Sie können, würde ich vorschlagen, mit einer Transformation beider Variablen zu arbeiten. Wenn keine der Variablen genaue Nullen hat, sehen Sie sich die Log-Log-Skala an
Glen_b

@ Glen_b Entschuldigung, ich bin nicht mit den Begriffen vertraut, die Sie angegeben haben. Sehen Sie sich nur die Handlung an. Können Sie eine Beziehung zwischen den beiden Variablen herstellen? Was ich vermuten kann, ist, dass bei einer Stichprobengröße von bis zu 1000 keine Beziehung besteht, da für die gleichen Stichprobengrößenwerte mehrere Medianwerte vorliegen. Bei Werten über 1000 scheint sich das Durchschnittsgehalt zu verringern. Was denkst du ?
Sameed

Ich sehe keine klaren Beweise dafür, es sieht für mich ziemlich flach aus; Wenn es deutliche Änderungen gibt, geschieht dies wahrscheinlich im unteren Bereich der Stichprobengröße. Haben Sie die Daten oder nur das Bild der Handlung?
Glen_b

4
Wenn Sie den Median als Median von n Zufallsvariablen sehen, ist es sinnvoll, dass die Variation des Medians mit zunehmender Stichprobengröße abnimmt. Das würde die große Ausbreitung auf der linken Seite des Grundstücks erklären.
JAD

2
Ihre Aussage "Für Stichprobengrößen bis 1000 gibt es keine Beziehung, da für dieselben Stichprobengrößenwerte mehrere Medianwerte vorliegen" ist falsch.
Peter Flom - Wiedereinsetzung von Monica

Antworten:


9

„Finden Sie heraus , “ zeigt Sie erkunden die Daten. Formale Tests wären überflüssig und suspekt. Wenden Sie stattdessen Standardtechniken zur explorativen Datenanalyse (EDA) an, um zu ermitteln, was in den Daten enthalten sein kann.

Diese Standardtechniken umfassen die Reexpression , die Restanalyse , robuste Techniken (die "drei R" von EDA) und die Glättung der Daten, wie von John Tukey in seinem klassischen Buch EDA (1977) beschrieben. Wie man einige davon durchführt, wird in meinem Post bei Box-Cox beschrieben, wie man unabhängige Variablen transformiert? und Wann ist es in der linearen Regression angebracht, das Protokoll einer unabhängigen Variablen anstelle der tatsächlichen Werte zu verwenden? , Unter anderem .

Das Ergebnis ist, dass viel zu sehen ist, wenn Sie zu Log-Log-Achsen wechseln (beide Variablen effektiv wieder ausdrücken), die Daten nicht zu aggressiv glätten und Reste der Glättung untersuchen, um zu überprüfen, was sie möglicherweise übersehen haben, wie ich veranschaulichen werde.

Hier sind die Daten mit einer Glättung dargestellt, die - nach Prüfung mehrerer Glättungen mit unterschiedlicher Wiedergabetreue - als guter Kompromiss zwischen zu viel und zu wenig Glättung erscheint. Es verwendet Löss, eine bekannte robuste Methode (sie wird nicht stark von vertikal liegenden Punkten beeinflusst).

Log-Log-Streudiagramm

Das vertikale Raster ist in Schritten von 10.000. Die Glättung weist auf eine Variation der Grad_medianStichprobengröße hin: Sie scheint abzufallen, wenn sich die Stichprobengröße 1000 nähert. (Die Enden der Glättung sind nicht vertrauenswürdig - insbesondere bei kleinen Stichproben, bei denen ein relativ großer Stichprobenfehler zu erwarten ist Lesen Sie nicht zu viel hinein.) Dieser Eindruck eines echten Tropfens wird durch die (sehr rauen) Vertrauensbereiche gestützt, die von der Software um die Glatte gezogen werden: Ihre "Wackelbewegungen" sind größer als die Breiten der Bereiche.

-0,220%

Wir sind interessiert an (a) ob es zusätzliche Variationsmuster gibt, wenn sich die Stichprobengröße ändert, und (b) ob die bedingten Verteilungen der Antwort - die vertikalen Verteilungen der Punktpositionen - über alle Werte der Stichprobengröße plausibel ähnlich sind, oder ob sich ein Aspekt von ihnen (wie ihre Ausbreitung oder Symmetrie) ändern könnte.

! [Abbildung 2 Darstellung der Residuen

0.0

Folglich ist diese einfache Zusammenfassung:

Das Durchschnittsgehalt ist bei Stichprobengrößen nahe 1000 um 10.000 niedriger

erfasst die in den Daten erscheinenden Beziehungen angemessen und scheint über alle Hauptkategorien hinweg einheitlich zu sein. Ob dies von Bedeutung ist, dh ob es angesichts zusätzlicher Daten Bestand haben würde, kann nur durch die Erhebung dieser zusätzlichen Daten beurteilt werden.


Für diejenigen, die diese Arbeit überprüfen oder weiterentwickeln möchten, ist hier der RCode.

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

7

Glen_b schlägt vor, den Logarithmus von sample_size und Mediangehalt zu verwenden, um festzustellen, ob eine Neuskalierung der Daten sinnvoll ist.

Ich weiß nicht, dass ich Ihrer Überzeugung zustimmen würde, dass das Durchschnittsgehalt abnimmt, sobald die Stichprobengröße über 1.000 steigt. Ich würde eher sagen, dass es überhaupt keine Beziehung gibt. Sagt Ihre Theorie voraus, dass es eine Beziehung geben sollte?

Eine andere Möglichkeit, eine mögliche Beziehung einzuschätzen, besteht darin, eine Regressionslinie an die Daten anzupassen. Alternativ können Sie auch eine Lowess-Kurve verwenden. Zeichnen Sie beide Zeilen in Ihre Daten ein und prüfen Sie, ob etwas herausgeputzt werden kann (ich bezweifle jedoch, dass etwas übermäßig aussagekräftig ist).


3
Das Streudiagramm ist einem Trichterdiagramm für Metaanalysen sehr ähnlich. Siehe ein ähnliches Beispiel . Das Zeichnen der Trichterbänder zeigt deutlicher, ob eine Beziehung besteht. In diesem Beispiel könnte eine leicht positive Beziehung vorliegen.
Andy W

6

Ich stimme auch zu, dass es keine Beziehung gibt. Ich habe Ihr ursprüngliches Streudiagramm (links) reproduziert und das von glen_b (rechts) vorgeschlagene Log-Log-Streudiagramm erstellt.

Bildbeschreibung hier eingeben

Sieht so aus, als gäbe es keine Beziehung zu. Die Korrelation zwischen logarithmisch transformierten Daten ist schwach (Pearson R = -.13) und nicht signifikant (p = .09). Abhängig davon, wie viele zusätzliche Informationen Sie haben, gibt es möglicherweise einen Grund, eine schwache negative Korrelation zu sehen, aber das scheint eine Strecke zu sein. Ich würde vermuten, dass jedes offensichtliche Muster, das Sie sehen, derselbe Effekt ist, den Sie hier sehen .

R=0,0022p=0,98


Vielen Dank, dass Sie sich die Korrelation zwischen Grad-Median und Grad-Stichprobengröße angesehen haben. Ich war zutiefst verwirrt über den Unterschied zwischen den Zahlen!
Famargar

0

Wenn Sie eine lineare Regression versuchen, erfahren Sie etwas über diese Beziehung, wie in der ersten Antwort vorgeschlagen. Da Sie für diesen Plot anscheinend Python plus matplotlib verwenden, sind Sie nur eine Codezeile von der Lösung entfernt.

Sie können ein seegeborenes Jointplot verwenden, das auch die lineare Regressionslinie, den Pearson-Korrelationskoeffizienten und seinen p-Wert anzeigt:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

Bildbeschreibung hier eingeben

Wie Sie sehen, besteht keine Korrelation. Betrachtet man diesen letzten Plot, scheint es nützlich zu sein, die x-Variable logarithmisch zu transformieren. Lass es uns versuchen:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

Bildbeschreibung hier eingeben

Sie können deutlich sehen, dass - ob logarithmische Transformation oder nicht - die Korrelation gering ist und sowohl der p-Wert als auch die Konfidenzintervalle besagen, dass sie statistisch nicht aussagekräftig sind.


3
Die Hinweise auf stark verzerrte bedingte Verteilungen legen nahe, dass dies kein guter Ansatz ist. Wenn Sie auch beobachten, dass die Schiefe der Stichprobengrößenverteilung dazu führt, dass die wenigen größten Stichprobengrößen das Auftreten eines Trends in der Regression steuern, werden Sie erkennen, warum andere vorläufige Transformationen der Daten empfehlen.
Whuber

1
Ich rate oder spekuliere nicht: Die Handlung in der Frage zeigt deutlich diese Merkmale. Sehen Sie sich auch die von R Greg Stacey erstellten Diagramme an , die anhand der vorgeschlagenen Log-Log-Transformationen zeigen, was sie leisten.
whuber

Ich habe gerade die Daten gefunden und die Studie selbst durchgeführt - siehe aktualisierte Antwort.
Famargar

Ihre Studie ist den beiden Problemen erlegen, die ich festgestellt habe: Das Auftreten von "Keine Korrelation" ist nicht zuletzt auf die verzerrten bedingten Antworten und die Hebelwirkung für die hohen Regressorwerte zurückzuführen. Insbesondere sind weder die angepasste Leitung noch ihre Fehlerbänder vertrauenswürdig.
whuber

Bitte sehen Sie sich die Handlung an, die ich gerade hinzugefügt habe. Ich hoffe, ich vermisse nichts in dieser letzten Iteration.
Famargar

-1

Dieses Diagramm dient als Demonstration des zentralen Grenzwertsatzes, bei dem die Variabilität zwischen Stichproben mit zunehmender Stichprobengröße abnimmt. Es ist auch die Form, die Sie mit einer stark verzerrten Variable wie Gehalt erwarten würden.


3
Dies sind keine unabhängigen Stichproben aus einer gemeinsamen Grundgesamtheit. Das macht die Relevanz des CLT eher problematisch.
Whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.