Wenn Sie eine Alternative zu einem Streudiagramm wünschen, funktioniert möglicherweise ein Diagramm mit parallelen Koordinaten , insbesondere wenn Sie versuchen, die Beziehung zwischen vielen Variablen darzustellen. Sie haben "viele Diagramme", und ein Diagramm mit parallelen Koordinaten kann dies möglicherweise auf eins reduzieren! Hier ist ein Beispiel für den berühmten Iris-Datensatz aus Wikipedia ( Bildnachweis ):
Die Darstellung zeigt sehr deutlich Unterschiede zwischen den Arten. Sie können stattdessen nach geografischer Region oder Entwicklungsstufe färben. Wir können sehen, wie schwierig es ist, die drei Arten anhand der Kelchblattbreite zu unterscheiden, aber ihre Blütenblattlängen sind stärker voneinander getrennt. Nach einer gewissen mentalen Anpassung (unsere Augen können zu trainiert sein, um nach einer "Steigung" zu suchen) besteht offensichtlich eine positive Korrelation zwischen Blütenblattbreite und Blütenblattlänge, da höhere Blütenblattbreiten mit höheren Blütenblattlängen verbunden sind. Blumen am einen oben auf der Skala stehen für den anderen eher am oberen Rand der Skala - dies äußert sich in ungefähr parallelen Linien zwischen den Achsen. Andererseits besteht eine negative Korrelation zwischen Kelchblattbreite und Kelchblattlänge,
Das Bild erfasst einen Großteil der in einer ganzen Matrix von Streudiagrammen verfügbaren Informationen ( Bildnachweis ):
Positiv zu vermerken ist, dass das Diagramm der parallelen Achse es uns ermöglicht, einem Individuum über alle Messgrößen hinweg zu folgen: Wenn wir zwei interessante Punkte auf zwei separaten Streudiagrammen, insbesondere Ausreißern, sehen, ist möglicherweise nicht ersichtlich, ob sie dasselbe Individuum darstellen, sondern auf In einem parallelen Achsendiagramm können wir einfach "dem Faden folgen". Auf der anderen Seite werden durch das Wegwerfen all dieser Streudiagramme Informationen über multivariate Beziehungen weggeworfen. Am offensichtlichsten ist, dass wir einige Details der Clusterbildung nicht so deutlich sehen können (obwohl Anmerkung Nick Cox parallele Koordinatendiagramme empfiehlt, um zu untersuchen, wie "tiefes" Clustering durch die Variablen geht) und die Möglichkeiten für eine lineare Unterscheidung vollständig verdeckt sind. Es kann auch schwierig werden, Korrelationen zwischen Achsen zu erkennen, die im Diagramm der parallelen Koordinaten weit voneinander entfernt sind.
Wenn Sie die Möglichkeit der Interaktivität habenAnstelle einer statischen Visualisierung bieten parallele Koordinatendiagramme einige Optionen, um dies zu umgehen. Beispielsweise kann ein Benutzer die Reihenfolge der Achsen ändern und Variablen nebeneinander platzieren, um die interessierende Beziehung klarer zu sehen. Da sich positive und negative Korrelation in einem Diagramm mit parallelen Koordinaten so unterschiedlich verhalten, ist es hilfreich, eine Achse umdrehen zu können (wenn Sie die Richtung einer Achse umkehren, die eine negative Korrelation mit einer benachbarten Achse aufweist, werden die Linien zwischen ihnen "entwirrt"). ). Selbst in einem statischen Diagramm ist es am effektivsten, Achsen umzukehren, um so viele positive Korrelationen wie möglich zu erzeugen, und Achsen zu ordnen, um aufeinanderfolgende Korrelationen so stark wie möglich zu machen, da es schwierig ist, einem Strang durch ein Gewirr zu folgen (siehe Nick Cox zu) dieser Punkt).
Die vielleicht wichtigste interaktive Funktion ist das Bürsten und Verknüpfen : Der Benutzer kann beispielsweise das obere Quartil von Personen anhand einer Variablen auswählen, und ihre Linien werden während des gesamten Diagramms automatisch hervorgehoben. Wenn auf einer anderen Achse Punkte hervorgehoben werden, die meistens oben liegen, deutet dies auf eine positive Korrelation hin (wir sollten jedoch überprüfen, ob das untere Quartil mit Punkten am unteren Rand der zweiten Variablen verknüpft ist). Wenn Punkte, die sich hauptsächlich am unteren Rand befinden, hervorgehoben sind, deutet dies auf eine negative Korrelation hin. Wenn eine Auswahl von Punkten hervorgehoben wird, die zufällig über die gesamte Achse verteilt sind, deutet dies auf eine geringe Korrelation hin.
Angesichts der Anzahl der Länder, die Sie einbeziehen, scheint es schwierig zu sein, sie alle auf einem Grundstück zu kennzeichnen, es sei denn, Sie haben ungewöhnlich großzügige Platzbeschränkungen. Möglicherweise müssen Sie sich damit zufrieden geben, nur die wichtigsten einzelnen Länder hervorzuheben. Bei einer interaktiven Visualisierung können Hover-Beschriftungen Unordnung vermeiden (wie @xan hervorhebt), und Sie können Benutzern möglicherweise erlauben, alle Länder in einer bestimmten Region (oder einer anderen Gruppierung) hervorzuheben, in denen ihre Beschriftungen möglicherweise automatisch angezeigt werden.
Wenn Sie nur eine begrenzte Anzahl von Beschriftungen verwenden, können Sie diese möglicherweise auf den Achsen selbst platzieren. Wenn Sie sich Edward Tuftes Die visuelle Darstellung quantitativer Informationen , Kapitel 7: Multifunktionale grafische Elemente, ansehen, werden Sie feststellen, dass dies Tuftes Vorschlag für eine sogenannte "Tabellengrafik" für staatliche Steuereinnahmen sehr ähnlich ist ( dies ist möglicherweise vertrauter) Sie als "Slopegraph"). Jede Achse wird zu einer Art Rangliste, was eine nette Funktion ist. (Es gibt einige Unterschiede zwischen den Ansätzen, insbesondere da Tuftes Beispieltabellengrafik auf jeder Achse dieselben Einheiten und Maßstäbe verwendete, anstatt die Daten so zu normalisieren, dass sie passen, und da seine "Achsen" einen früheren und späteren Zeitraum darstellten, die Steigungen hatten eine zusätzliche Interpretation als Wachstumsrate. Diese Interpretationen gelten im Allgemeinen nicht für ein Diagramm mit parallelen Koordinaten, aber die Idee einer Ranglistentabelle auf jeder Achse tut dies.)
Links und Referenzen
- Cox, NJ " Speaking Stata: Grafische Übereinstimmung und Nichtübereinstimmung ", The Stata Journal (2004) 4 , Nummer 3, S. 329–349 - Dies umfasst parallele Koordinatendiagramme, aber auch einige andere, die für Sie von Interesse sein könnten.
- Edward Tuftes Blogpost über Slopegraphs , einschließlich seiner "Tischgrafik".
- Robert Kosaras Blogbeitrag über parallele Koordinaten , einschließlich einiger Vor- und Nachteile (aufgrund der Unmöglichkeit, kategoriale Daten in einem traditionellen Diagramm für parallele Koordinaten darzustellen, entwickelte Kosara eine Visualisierung für parallele Mengen - siehe auch seinen Artikel ).
- Einige interaktive Beispiele: ein schönes mit Protovis und ein anderes mit dem weicheren Ersatz D3.js (ziehen Sie die Achsnamen, um sie zu verschieben; weitere Beispiele finden Sie hier ).