Was ist ein geeignetes Diagramm, um die Beziehung zwischen zwei Ordnungsvariablen zu veranschaulichen?
Ein paar Möglichkeiten, die mir einfallen:
- Streudiagramm mit zufälligem Jitter, um zu verhindern, dass sich Punkte gegenseitig verbergen. Anscheinend eine Standardgrafik - Minitab nennt dies ein "Einzelwertdiagramm". Meiner Meinung nach kann dies irreführend sein, da es visuell eine Art lineare Interpolation zwischen Ordnungswerten fördert, als ob die Daten von einer Intervallskala stammen würden.
- Das Streudiagramm wurde so angepasst, dass die Größe (Fläche) des Punkts die Häufigkeit dieser Kombination von Ebenen darstellt, anstatt einen Punkt für jede Abtasteinheit zu zeichnen. Ich habe solche Pläne gelegentlich in der Praxis gesehen. Sie können schwer zu lesen sein, aber die Punkte liegen auf einem Gitter mit regelmäßigen Abständen, was die Kritik des Diagramms mit zitternden Streuungen, das die Daten visuell "intervallisiert", ein wenig überwindet.
- Insbesondere wenn eine der Variablen als abhängig behandelt wird, wird ein Boxplot nach den Ebenen der unabhängigen Variablen gruppiert. Sieht wahrscheinlich furchtbar aus, wenn die Anzahl der Stufen der abhängigen Variablen nicht hoch genug ist (sehr "flach" mit fehlenden Whiskern oder noch schlimmer kollabierten Quartilen, was die visuelle Identifizierung des Medians unmöglich macht), lenkt aber zumindest die Aufmerksamkeit auf den Median und die Quartile, die es gibt relevante deskriptive Statistik für eine Ordinalvariable.
- Wertetabelle oder leeres Zellenraster mit Wärmekarte zur Angabe der Häufigkeit. Optisch anders, aber konzeptionell dem Streudiagramm ähnlich, wobei die Punktfläche die Frequenz anzeigt.
Gibt es andere Ideen oder Überlegungen, welche Handlungen vorzuziehen sind? Gibt es Forschungsbereiche, in denen bestimmte Ordinal-gegen-Ordinal-Diagramme als Standard gelten? (Ich scheine mich an eine Frequenz-Heatmap zu erinnern, die in der Genomik weit verbreitet ist, vermute aber, dass dies häufiger für nominal-vs-nominal gilt.) Vorschläge für eine gute Standardreferenz wären ebenfalls sehr willkommen, ich vermute etwas von Agresti.
Wenn jemand mit einem Plot illustrieren möchte, folgt der R-Code für falsche Beispieldaten.
"Wie wichtig ist Bewegung für dich?" 1 = überhaupt nicht wichtig, 2 = etwas unwichtig, 3 = weder wichtig noch unwichtig, 4 = etwas wichtig, 5 = sehr wichtig.
"Wie oft laufen Sie 10 Minuten oder länger?" 1 = nie, 2 = weniger als einmal pro Woche, 3 = einmal alle ein oder zwei Wochen, 4 = zwei oder drei Mal pro Woche, 5 = vier oder mehr Mal pro Woche.
Wenn es natürlich wäre, "oft" als abhängige Variable und "Wichtigkeit" als unabhängige Variable zu behandeln, wenn ein Plot zwischen beiden unterscheidet.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Eine verwandte Frage für stetige Variablen fand ich hilfreich, vielleicht ein nützlicher Ausgangspunkt: Was sind Alternativen zu Streudiagrammen, wenn man die Beziehung zwischen zwei numerischen Variablen untersucht?