Gestapelte Balkendiagramme sind im Allgemeinen für Nicht-Statistiker gut verständlich, sofern sie vorsichtig eingeführt werden. Es ist nützlich, sie auf einer gemeinsamen Metrik (z. B. 0-100%) mit einer abgestuften Farbe für jede Kategorie zu skalieren, wenn es sich um ordinale Elemente handelt (z. B. Likert). Ich bevorzuge Punktdiagramme (Cleveland Dot Plot), wenn es nicht zu viele Elemente und nicht mehr als 3-5 Antwortkategorien gibt. Aber es geht wirklich um visuelle Klarheit. Ich gebe im Allgemeinen% an, da es sich um eine standardisierte Kennzahl handelt, und gebe nur% und Anzahl mit nicht gestapeltem Balkendiagramm an. Hier ist ein Beispiel für das, was ich meine:
data(Environment, package="ltm")
Environment[sample(1:nrow(Environment), 10),1] <- NA
na.count <- apply(Environment, 2, function(x) sum(is.na(x)))
tab <- apply(Environment, 2, table)/
apply(apply(Environment, 2, table), 2, sum)*100
dotchart(tab, xlim=c(0,100), xlab="Frequency (%)",
sub=paste("N", nrow(Environment), sep="="))
text(100, c(2,7,12,17,22,27), rev(na.count), cex=.8)
mtext("# NA", side=3, line=0, at=100, cex=.8)
Besseres Rendering könnte mit lattice
oder erreicht werden ggplot2
. In diesem Beispiel weisen alle Elemente die gleichen Antwortkategorien auf. Im Allgemeinen werden jedoch möglicherweise unterschiedliche Kategorien erwartet, sodass die Anzeige aller Elemente nicht überflüssig erscheint, wie dies hier der Fall ist. Es wäre jedoch möglich, jeder Antwortkategorie dieselbe Farbe zuzuweisen, um das Lesen zu erleichtern.
Ich würde jedoch sagen, dass gestapelte Balkendiagramme besser sind, wenn alle Elemente dieselbe Antwortkategorie aufweisen, da sie dazu beitragen, die Häufigkeit einer Antwortmodalität für mehrere Elemente zu schätzen:
Ich kann mir auch eine Art Heatmap vorstellen, die nützlich ist, wenn es viele Elemente mit ähnlichen Antwortkategorien gibt.
Fehlende Antworten (insbesondere, wenn sie nicht zu vernachlässigen sind oder sich auf einen bestimmten Artikel / eine bestimmte Frage beziehen) sollten im Idealfall für jeden Artikel gemeldet werden. Im Allgemeinen wird der Prozentsatz der Antworten für jede Kategorie ohne NA berechnet. Dies wird normalerweise in Umfragen oder in der Psychometrie gemacht (wir sprechen von "ausgedrückten oder beobachteten Antworten").
PS
Ich kann mir ausgefallenere Dinge vorstellen, wie das unten gezeigte Bild (das erste wurde von Hand gemacht, das zweite stammt von ggplot2
, ggfluctuation(as.table(tab))
), aber ich denke nicht, dass es so genaue Informationen wie Punktdiagramme oder Balkendiagramme liefert, da Oberflächenvariationen schwierig sind schätzen.