Visualisierung und Überzeichnung: Alternative zu Streuungen

Ich habe eine große Menge von Länderdaten, die überfüllt sind (wie Sie unten sehen können), aber ich brauche die Beschriftungen und die Ausreißer - ich habe auch viele Grafiken, daher wäre es mühsam, das Fenster zurückzusetzen und einen falschen Datenpunkt hinzuzufügen für die Ausreißer.

Gibt es eine gute Alternative zu einem Streudiagramm, die in einer solchen Situation besser sein könnte? Ich würde wirklich gerne eine Karte machen, aber ich brauche beide Teile des bestellten Paares.

Geben Sie hier die Bildbeschreibung ein

data-visualization

— arebearit
quelle

Dies erscheint mir in seiner jetzigen Form schwer zu beantworten. Können Sie weitere Informationen zu Ihrer Situation, Ihren Daten und Ihren Zielen bereitstellen? Was sind die Variablen? Müssen Sie nur die Ausreißer irgendwie identifizieren (z. B. wäre ein nicht auf Visualisierung basierender Ansatz in Ordnung)? Welche Software verwenden Sie? Fragen Sie nur nach Code? (Wenn ja, wäre die Frage hier nicht zum Thema.) Etc.

— gung - Reinstate Monica

Es gibt Software (in R, glaube ich), die versucht, Etiketten zu platzieren, damit sie nicht überplotten. Wenn Sie alle Beschriftungen haben, benötigen Sie die Punkte nicht, die Beschriftung erledigt den Job! Versuchen Sie es mit einer kleineren Schriftgröße, und vielleicht sogar mit durchsichtigen Schriftarten. Denken Sie nicht an den Namen, der in R möglich sein sollte, indem Sie die Transparenz variieren. Schauen Sie sich ggplot2 oder F Harrells Design an, vielleicht etwas drin.

— kjetil b halvorsen

Antworten:

In dieser Handlung, die ich vor einigen Monaten gemacht habe, werden einige Techniken demonstriert .

Beschriften Sie nur die "interessanten" Punkte und verlassen Sie sich auf ein Hover-Etikett, um andere Punkte bei Bedarf zu identifizieren. Dies erfordert menschliches Eingreifen, um erfolgreich zu sein, obwohl Software Heuristiken nahe kommen kann, z. B. nur Beschriftungen anzeigen, wenn sie ohne Überlappung angezeigt werden können.
Transformieren Sie die Skala, z. B. mit Protokollen oder Quantilen. Die Vorsicht hierbei ist, dass die Skala nicht mehr direkt mit unserer Wahrnehmung übereinstimmt. Der Betrachter muss die Transformation im Auge behalten.

Geben Sie hier die Bildbeschreibung ein

Andere Optionen:

Verwenden Sie Gitter oder kleine Vielfache . Zeigen Sie also eine Reihe von Diagrammen mit jeweils einer Teilmenge der Punkte an, z. B. ein Diagramm für jede Region für Ihre Länderdaten.
Verwenden Sie verknüpfte Diagramme mit einer Variablen, z. B. Balken oder Punktdiagramme, sodass sich die Beschriftung in der Achse befindet. Es ist hilfreich, wenn Sie nach beiden Variablen interaktiv sortieren können.

Geben Sie hier die Bildbeschreibung ein

— xan
quelle

Ich liebe die Handlung oben; Hast du den Code dafür irgendwo veröffentlicht? "Das heißt, zeigen Sie eine Reihe von Diagrammen mit jeweils einer Teilmenge der Punkte, z. B. ein Diagramm für jede Region für Ihre Länderdaten" ist ein guter Punkt - Nick Cox hat irgendwo eine hervorragende Antwort, die zeigt, wie dies getan werden kann Stata (ich glaube er hat ein Paket dafür geschrieben). Ich werde sehen, ob ich es finden und verknüpfen kann.

— Silverfish

Danke @Silverfish! Ich habe das Streudiagramm interaktiv in JMP (dem Produkt meines Unternehmens) erstellt, wobei die Etiketten von Hand abgestimmt und die rosa Teile programmgesteuert hinzugefügt wurden. Gefahren des "Publizierens" auf Twitter - Ich muss es irgendwo mit etwas mehr Erklärungen, Daten und Skripten veröffentlichen. Wird hier mit einem Link folgen, wenn ich Erfolg habe.

— Xan

@Silverfish Sie denken vielleicht an Beiträge auf Statalist, zB statalist.org/forums/forum/general-stata-discussion/general/…

— Nick Cox

Die Daten und Skripte für mein erstes Diagramm befinden sich unter community.jmp.com/docs/DOC-7108 .

— Xan

@ Nick Cox Das stimmt! Nun, ich glaube, ich habe es gesehen in: Cox, NJ 2010, "Graphing subsets", The Stata Journal , 10 : 670-681. Aber die Farbgrafiken in diesem Statalist-Beitrag machen es noch deutlicher. Der Link zum Zeitschriftenartikel lautet www.stata-journal.com/sjpdf.html?articlenum=gr0046 (Ich vermute, das Fragezeichen verhindert, dass er als Hyperlink angezeigt wird)

— Silverfish

Wenn Sie eine Alternative zu einem Streudiagramm wünschen, funktioniert möglicherweise ein Diagramm mit parallelen Koordinaten , insbesondere wenn Sie versuchen, die Beziehung zwischen vielen Variablen darzustellen. Sie haben "viele Diagramme", und ein Diagramm mit parallelen Koordinaten kann dies möglicherweise auf eins reduzieren! Hier ist ein Beispiel für den berühmten Iris-Datensatz aus Wikipedia ( Bildnachweis ):

Paralleles Koordinatendiagramm für Irisdaten

Die Darstellung zeigt sehr deutlich Unterschiede zwischen den Arten. Sie können stattdessen nach geografischer Region oder Entwicklungsstufe färben. Wir können sehen, wie schwierig es ist, die drei Arten anhand der Kelchblattbreite zu unterscheiden, aber ihre Blütenblattlängen sind stärker voneinander getrennt. Nach einer gewissen mentalen Anpassung (unsere Augen können zu trainiert sein, um nach einer "Steigung" zu suchen) besteht offensichtlich eine positive Korrelation zwischen Blütenblattbreite und Blütenblattlänge, da höhere Blütenblattbreiten mit höheren Blütenblattlängen verbunden sind. Blumen am einen oben auf der Skala stehen für den anderen eher am oberen Rand der Skala - dies äußert sich in ungefähr parallelen Linien zwischen den Achsen. Andererseits besteht eine negative Korrelation zwischen Kelchblattbreite und Kelchblattlänge,

Das Bild erfasst einen Großteil der in einer ganzen Matrix von Streudiagrammen verfügbaren Informationen ( Bildnachweis ):

Streumatrix für Irisdaten

Positiv zu vermerken ist, dass das Diagramm der parallelen Achse es uns ermöglicht, einem Individuum über alle Messgrößen hinweg zu folgen: Wenn wir zwei interessante Punkte auf zwei separaten Streudiagrammen, insbesondere Ausreißern, sehen, ist möglicherweise nicht ersichtlich, ob sie dasselbe Individuum darstellen, sondern auf In einem parallelen Achsendiagramm können wir einfach "dem Faden folgen". Auf der anderen Seite werden durch das Wegwerfen all dieser Streudiagramme Informationen über multivariate Beziehungen weggeworfen. Am offensichtlichsten ist, dass wir einige Details der Clusterbildung nicht so deutlich sehen können (obwohl Anmerkung Nick Cox parallele Koordinatendiagramme empfiehlt, um zu untersuchen, wie "tiefes" Clustering durch die Variablen geht) und die Möglichkeiten für eine lineare Unterscheidung vollständig verdeckt sind. Es kann auch schwierig werden, Korrelationen zwischen Achsen zu erkennen, die im Diagramm der parallelen Koordinaten weit voneinander entfernt sind.

Wenn Sie die Möglichkeit der Interaktivität habenAnstelle einer statischen Visualisierung bieten parallele Koordinatendiagramme einige Optionen, um dies zu umgehen. Beispielsweise kann ein Benutzer die Reihenfolge der Achsen ändern und Variablen nebeneinander platzieren, um die interessierende Beziehung klarer zu sehen. Da sich positive und negative Korrelation in einem Diagramm mit parallelen Koordinaten so unterschiedlich verhalten, ist es hilfreich, eine Achse umdrehen zu können (wenn Sie die Richtung einer Achse umkehren, die eine negative Korrelation mit einer benachbarten Achse aufweist, werden die Linien zwischen ihnen "entwirrt"). ). Selbst in einem statischen Diagramm ist es am effektivsten, Achsen umzukehren, um so viele positive Korrelationen wie möglich zu erzeugen, und Achsen zu ordnen, um aufeinanderfolgende Korrelationen so stark wie möglich zu machen, da es schwierig ist, einem Strang durch ein Gewirr zu folgen (siehe Nick Cox zu) dieser Punkt).

Die vielleicht wichtigste interaktive Funktion ist das Bürsten und Verknüpfen : Der Benutzer kann beispielsweise das obere Quartil von Personen anhand einer Variablen auswählen, und ihre Linien werden während des gesamten Diagramms automatisch hervorgehoben. Wenn auf einer anderen Achse Punkte hervorgehoben werden, die meistens oben liegen, deutet dies auf eine positive Korrelation hin (wir sollten jedoch überprüfen, ob das untere Quartil mit Punkten am unteren Rand der zweiten Variablen verknüpft ist). Wenn Punkte, die sich hauptsächlich am unteren Rand befinden, hervorgehoben sind, deutet dies auf eine negative Korrelation hin. Wenn eine Auswahl von Punkten hervorgehoben wird, die zufällig über die gesamte Achse verteilt sind, deutet dies auf eine geringe Korrelation hin.

Angesichts der Anzahl der Länder, die Sie einbeziehen, scheint es schwierig zu sein, sie alle auf einem Grundstück zu kennzeichnen, es sei denn, Sie haben ungewöhnlich großzügige Platzbeschränkungen. Möglicherweise müssen Sie sich damit zufrieden geben, nur die wichtigsten einzelnen Länder hervorzuheben. Bei einer interaktiven Visualisierung können Hover-Beschriftungen Unordnung vermeiden (wie @xan hervorhebt), und Sie können Benutzern möglicherweise erlauben, alle Länder in einer bestimmten Region (oder einer anderen Gruppierung) hervorzuheben, in denen ihre Beschriftungen möglicherweise automatisch angezeigt werden.

Wenn Sie nur eine begrenzte Anzahl von Beschriftungen verwenden, können Sie diese möglicherweise auf den Achsen selbst platzieren. Wenn Sie sich Edward Tuftes Die visuelle Darstellung quantitativer Informationen , Kapitel 7: Multifunktionale grafische Elemente, ansehen, werden Sie feststellen, dass dies Tuftes Vorschlag für eine sogenannte "Tabellengrafik" für staatliche Steuereinnahmen sehr ähnlich ist ( dies ist möglicherweise vertrauter) Sie als "Slopegraph"). Jede Achse wird zu einer Art Rangliste, was eine nette Funktion ist. (Es gibt einige Unterschiede zwischen den Ansätzen, insbesondere da Tuftes Beispieltabellengrafik auf jeder Achse dieselben Einheiten und Maßstäbe verwendete, anstatt die Daten so zu normalisieren, dass sie passen, und da seine "Achsen" einen früheren und späteren Zeitraum darstellten, die Steigungen hatten eine zusätzliche Interpretation als Wachstumsrate. Diese Interpretationen gelten im Allgemeinen nicht für ein Diagramm mit parallelen Koordinaten, aber die Idee einer Ranglistentabelle auf jeder Achse tut dies.)

Links und Referenzen

Cox, NJ " Speaking Stata: Grafische Übereinstimmung und Nichtübereinstimmung ", The Stata Journal (2004) 4 , Nummer 3, S. 329–349 - Dies umfasst parallele Koordinatendiagramme, aber auch einige andere, die für Sie von Interesse sein könnten.
Edward Tuftes Blogpost über Slopegraphs , einschließlich seiner "Tischgrafik".
Robert Kosaras Blogbeitrag über parallele Koordinaten , einschließlich einiger Vor- und Nachteile (aufgrund der Unmöglichkeit, kategoriale Daten in einem traditionellen Diagramm für parallele Koordinaten darzustellen, entwickelte Kosara eine Visualisierung für parallele Mengen - siehe auch seinen Artikel ).
Einige interaktive Beispiele: ein schönes mit Protovis und ein anderes mit dem weicheren Ersatz D3.js (ziehen Sie die Achsnamen, um sie zu verschieben; weitere Beispiele finden Sie hier ).

— Silberfisch
quelle

+1. Danke für die Erwähnung. Beachten Sie, dass die Kombination von Rot und Grün für viele Menschen eine Herausforderung darstellt, insbesondere wenn das Symbol dasselbe ist! Rot, Blau und Schwarz würden besser funktionieren.

— Nick Cox

@Nick Ja, ich dachte, das sind keine sehr guten Beispiel-Plots an dieser Front - ich habe sie nur ausgeliehen, weil sie frei lizenziert sind (auf Wikipedia). Wenn ich bessere frei lizenzierte Beispiele finden kann, würde ich sie ersetzen (oder wenn ich etwas Zeit habe, meine eigenen zu erstellen).

— Silverfish