Wie lässt sich die Beziehung zwischen diskreten und kontinuierlichen Variablen am besten veranschaulichen?


19

Was ist der beste Weg, um eine Beziehung zwischen:

  • kontinuierliche und diskrete Variable,
  • zwei diskrete Variablen?

Bisher habe ich Streudiagramme verwendet, um die Beziehung zwischen kontinuierlichen Variablen zu untersuchen. Bei diskreten Variablen werden die Datenpunkte jedoch in bestimmten Intervallen kumuliert. Somit könnte die Linie der besten Anpassung vorgespannt sein.


4
Für den diskret-diskreten Fall kann diese Antwort auf eine etwas verwandte Frage hier zum Zeichnen geordneter kategorialer Daten hilfreich sein (allerdings möglicherweise ohne die Kästchen in Ihrem Fall). Ich bin mir wirklich nicht sicher, wie diese "Voreingenommenheit" entsteht. Dies würde sich auf den visuellen Eindruck der Datenpunkte auswirken (was dazu führen würde, dass erwartet wird, dass die Linie an einer anderen Stelle als der vorgesehenen verläuft), nicht jedoch auf die eigentlichen Daten. Können Sie hier Ihre Argumentation erläutern?
Glen_b -Reinstate Monica

Antworten:


26

Unten: Die ursprüngliche Darstellung kann irreführend sein, da sich die Punkte aufgrund der Diskretion der Variablen überlappen:

Bildbeschreibung hier eingeben

Eine Möglichkeit, dies zu umgehen, besteht darin, das Datensymbol etwas transparenter zu gestalten:

Bildbeschreibung hier eingeben

Eine andere Möglichkeit besteht darin, die Position des Symbols leicht zu verschieben, um einen Abstrich zu erstellen. Diese Technik wird "Jittering" genannt:

Bildbeschreibung hier eingeben

Mit beiden Lösungen können Sie weiterhin eine gerade Linie zur Bewertung der Linearität einpassen.

R-Code für Ihre Referenz:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)

1
Gute Antwort. Was ist mit einem Bubble-Scatter-Plot mit variabler Anzahl von Instanzen? Ich habe versucht, diese Techniken auf einem riesigen Datensatz anzuwenden, und es hat zu lange gedauert, die Alphas zu rendern.
Josh

14

Ich würde Boxplots verwenden, um die Beziehung zwischen einer diskreten und einer kontinuierlichen Variablen anzuzeigen. Sie können Ihre Boxplots mit Standard-Statistiksoftware vertikal oder horizontal erstellen, sodass Sie sie einfach als IV oder DV visualisieren können. Es ist möglich , ein Streudiagramm mit einer diskreten und kontinuierlichen Variablen zu verwenden, nur eine Zahl auf die diskreten Variablen zuweisen ( zum Beispiel 1 & 2), und Jitter dieser Werte (Anmerkung oben Grundstück direkt am hier ).

In Bezug auf Ihren Kommentar, dass die Linie der besten Anpassung voreingenommen sein könnte, hängt es davon ab, was Sie haben. Wenn Sie zum Beispiel eine diskrete Variable mit zwei Stufen als IV und eine kontinuierliche Variable als DV haben, können Sie eine Linie durch die beiden Mittel ziehen, und dies wird nicht verzerrt. (Wir würden diese Situation normalerweise als angemessen für einen t-Test ansehen, aber es ist tatsächlich eine Form - dh ein einfacher Fall - der Regression, siehe meine Antwort hier .) Wenn Sie dagegen eine diskrete haben Variable mit zwei Stufen als DV, Standard-Regression (OLS) wäre ungeeignet (logistische Regression wäre erforderlich ) und die Linie der besten Anpassung wäre voreingenommen, aber Sie könnten eine Geringfügigkeitslinie als Teil Ihrer Initiale anpassen (& plotten) Datenexploration.

Um die Beziehung zwischen zwei diskreten Variablen zu visualisieren, würde ich ein Mosaikdiagramm verwenden . Sie können auch ein Siebdiagramm , ein Zuordnungsdiagramm oder ein dynamisches Druckdiagramm mit etwas Programmierung verwenden.


8

Wenn ich die Beziehung zwischen einer binären Ergebnisvariablen und einem stetigen Prädiktor betrachte, würde ich den Lößglätter verwenden (mit deaktivierter Ausreißererkennung, z lowess(x, y, iter=0). B. in R.

In der nächsten Version des R- HmiscPakets können Sie auf einfache Weise eine einzelne latticeGrafik erstellen , die solche Kurven für mehrere Prädiktoren, z

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)

1

Wenn Sie mit einfachen Streudiagrammen nicht zufrieden sind, können Sie die Häufigkeiten der Datenpunkte zu jedem Wert der diskreten Variablen hinzufügen. Wie das geht, hängt nur vom verwendeten Statistikprogramm ab. Hier ist ein Beispiel für Stata. Sie können dies auch auf das Streudiagramm von zwei kategorialen Variablen anwenden. Andernfalls sind Boxplots oder überlagerte Balkendiagramme möglicherweise in Ordnung, dies hängt jedoch davon ab, wie Sie diese Variablen darstellen möchten.


1

Auf http://www.boekboek.com/xb130929113026 habe ich eine Arbeit gefunden, die sich auf die Assoziation zwischen zwei binären Variablen bezieht. In diesem Artikel wird gezeigt und bewiesen, dass die Assoziationsstärke zwischen zwei binären Variablen als Bruchteil von ausgedrückt werden kann perfekte Assoziation. So wird es möglich und vorzuziehen, anzugeben: Die Assoziation zwischen Variable A und Variable B beträgt beispielsweise 50% anstelle der zeitweiligen Angabe: OR = 9 (nicht leicht zu interpretieren) oder des realen Risikos = 2 (zeitweilig wird das relative Risiko berücksichtigt) auch um ein Maß für Assoziation zu sein, obwohl es tatsächlich eine Funktion von Assoziation, Prävalenz oder Inzidenz und Positivität ist).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.