Welche bewährten Methoden sollte ich bei der Erstellung von Plots befolgen?


40

Normalerweise treffe ich meine eigenen Entscheidungen, wenn ich Handlungen vorbereite. Ich frage mich jedoch, ob es Best Practices für die Erstellung von Plots gibt.

Anmerkung: Robs Kommentar zu einer Antwort auf diese Frage ist hier sehr relevant.

Antworten:


23

Die Tufte-Prinzipien sind sehr gute Praktiken bei der Vorbereitung von Parzellen. Siehe auch sein Buch Beautiful Evidence

Die Prinzipien beinhalten:

  • Behalten Sie ein hohes Daten-Tinten-Verhältnis bei
  • Entfernen Sie Diagrammmüll
  • Geben Sie dem grafischen Element mehrere Funktionen
  • Beachten Sie die Datendichte

Der Suchbegriff lautet Information Visualization


4
Die visuelle Anzeige quantitativer Informationen von Tufte ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) ist besser als die von Beautiful Evidence IMO. Alle vier seiner Bücher sind jedoch gut, und wenn Sie die Möglichkeit haben, an einem seiner Kurse teilzunehmen, tun Sie es.
Stephen Turner

5
Ich bin mit den meisten Aussagen von Tufte einverstanden, aber ich muss sagen, dass seine geringen Datenmengen: Tintenboxplots einfach nur idiotisch sind. Ich glaube, ich brauche 3-4 Mal länger, um das herauszufinden, als bei Standard-Boxplots. Die R-Vorgaben sind viel besser (obwohl die Linien an den Enden der Schwänze unnötig sind). Herkömmliche Boxplots haben den zusätzlichen Vorteil, dass sie die Stichprobengröße (mit Breite) und Standardabweichungen (mit Kerben) darstellen können.
Naught101

2
+1 @ naught101 Einige andere teilen diese Meinung über SO: stackoverflow.com/questions/6973394/…
Ben

15

Wir könnten den ganzen Tag hier bleiben, um bewährte Methoden zu beschreiben, aber Sie sollten zuerst Tufte lesen. Meine Hauptempfehlung:

Halte es einfach.

Häufig versuchen die Benutzer, ihre Diagramme mit Informationen aufzuladen. Aber Sie sollten wirklich nur eine Hauptidee haben, die Sie vermitteln möchten, und wenn jemand Ihre Nachricht fast sofort nicht erhält, sollten Sie überdenken, wie Sie sie präsentiert haben. Beginnen Sie also erst mit der Arbeit an Ihrem Diagramm, wenn die Nachricht selbst klar ist. Auch hier gilt Ockhams Rasiermesser.


1
Ich stimme dem Großteil dieses Punktes zu, aber ich denke "Halte es einfach." könnte unklar sein. Ihr wichtigster Punkt ist, dass Sie wissen, was das Diagramm vermitteln soll. "Halte es einfach." bringt einige andere Ideen vor, wie "Das Daten: Tintenverhältnis sollte hoch sein.", die Tufte fördert, und "Nicht mehr als drei Variablen präsentieren.", von denen Tufte abrät.
Thomas Levine

Dieser Rat ist eindeutig immens besser als das Gegenteil. Es gibt jedoch Situationen, in denen ein Diagramm notwendigerweise kompliziert ist und detaillierte, sorgfältige und sorgfältige Untersuchungen erfordert. Aber die Komplikation sollte so einfach wie möglich sein. Zum Beispiel müssen 25 Diagramme in einer 5 x 5-Matrix möglicherweise über einen längeren Zeitraum untersucht werden, aber die Idee, dass jedes nur einen Teil der Daten zeigt, ist relativ einfach zu erfassen.
Nick Cox

12

Eine Faustregel, der ich nicht immer folge, die aber gelegentlich nützlich ist, ist zu berücksichtigen, dass es wahrscheinlich ist, dass Ihre Handlung irgendwann in der Zukunft sein wird

  • per Fax gesendet,
  • fotokopiert und / oder
  • in schwarz-weiß wiedergegeben.

Sie müssen versuchen, Ihre Zeichnungen so deutlich zu machen, dass selbst wenn sie in Zukunft ungenau reproduziert werden, die Informationen, die die Zeichnung vermitteln soll, noch lesbar sind.


14
Ich denke, Sie meinen, irgendwann in der Vergangenheit per Fax gesendet ;)
Hadley

+1 dafür. Ihre bahnbrechende Handlung, das Herzstück Ihres Papiers, sollte nicht völlig unverständlich sein, da ich sie ausgedruckt habe.
Fomite

Diese Antwort spricht ein ähnliches Problem an.
Naught101

8

Neben einer klaren Botschaft versuche ich mich immer an die Handlung zu erinnern:

  • Schriftgrößen für Beschriftungen und Legenden sollten groß genug sein, vorzugsweise dieselbe Schriftgröße und Schriftart, die in der endgültigen Veröffentlichung verwendet wurden.
  • Linienbreiten sollten groß genug sein (1-Punkt-Linien verschwinden normalerweise, wenn die Diagramme nur geringfügig verkleinert werden). Ich versuche, auf Linienbreiten von 3 bis 5 pt zu gehen.
  • Wenn Sie mehrere Datensätze / Kurven mit Farbe zeichnen, stellen Sie sicher, dass diese in Schwarzweiß gedruckt verständlich sind, z. B. indem Sie neben Farbe auch andere Symbole oder Linienstile verwenden.
  • Verwenden Sie immer ein verlustfreies (oder nahezu verlustfreies) Format, z. B. ein Vektorformat wie PDF, PS oder SVG oder hochauflösendes PNG oder GIF (JPEG funktioniert überhaupt nicht und wurde nie für Strichzeichnungen entwickelt).
  • Bereiten Sie Grafiken im endgültigen Seitenverhältnis vor, die in der Publikation verwendet werden sollen. Das spätere Ändern des Seitenverhältnisses kann zu irritierenden Schrift- oder Symbolformen führen.
  • Entfernen Sie immer unnötige Unordnung aus dem Plotprogramm, wie nicht verwendete Histogramminformationen, Trendlinien (kaum nützlich) oder Standardtitel.

Ich habe meine Plotter-Software (matplotlib, ROOT oder root2matplotlib) so konfiguriert, dass das meiste davon standardmäßig funktioniert. Bevor ich das benutzte gnuplot, brauchte ich hier zusätzliche Pflege.


8

Auf dem Gebiet der Physik gibt es die Regel, dass die gesamte Arbeit / der Bericht nur durch einen kurzen Blick auf die Diagramme verständlich sein sollte. Daher würde ich vor allem raten, dass sie selbsterklärend sein sollten.
Dies impliziert auch, dass Sie immer überprüfen müssen, ob Ihr Publikum mit einer Handlung vertraut ist. Ich hatte einmal einen großen Fehler gemacht, vorausgesetzt, jeder Wissenschaftler weiß, was Boxplots sind, und dann eine Stunde verschwendet, um es zu erklären.


Sympathien für die Box-Plot-Erfahrung, aber dies impliziert, dass (a) eine relativ einfache Variante verwendet wird (z. B. Median, Quartile, 5% - und 95% -Punkte und alle Datenpunkte darüber hinaus), anstatt alles zu zeigen, was auf der Konvention basiert 1,5 IQR; (b) Hinzufügen einer Überschrift, die Konventionen explizit macht.
Nick Cox

6

Hier sind meine Richtlinien, basierend auf den häufigsten Fehlern, die ich sehe (zusätzlich zu allen anderen guten Punkten, die erwähnt wurden).

  • Verwenden Sie Streudiagramme und keine Liniendiagramme, wenn die Elementreihenfolge nicht relevant ist.
  • Verwenden Sie bei der Erstellung von zu vergleichenden Darstellungen für alle denselben Skalierungsfaktor.
  • Noch besser - finden Sie eine Möglichkeit, die Daten in einem einzigen Diagramm zu kombinieren (z. B .: Boxplots sind besser als mehrere Histogramme, um eine große Anzahl von Verteilungen zu vergleichen).
  • Vergessen Sie nicht, Einheiten anzugeben
  • Verwenden Sie eine Legende nur, wenn Sie müssen - es ist im Allgemeinen klarer, Kurven direkt zu beschriften.
  • Wenn Sie eine Legende verwenden müssen, verschieben Sie sie innerhalb des Diagramms in einen leeren Bereich.
  • Streben Sie für Liniendiagramme ein Seitenverhältnis an, das Linien mit einer Seitenlänge von ungefähr 45 ° ergibt .

"Boxplots sind besser als mehrere Histogramme zum Vergleichen einer großen Anzahl von Verteilungen" - dies gilt nur, wenn Ihre Daten unimodal sind und keine Kurtosis oder andere Funktionen aufweisen, die von Boxplots nicht erfasst werden können.
naught101

6

Schauen Sie sich die R-Grafikbibliothek ggplot2 an. Details finden Sie auf der Webseite http://had.co.nz/ggplot2/. Dieses Paket generiert sehr gute Standard-Plots, die den Tufte-Prinzipien, den Cleveland-Richtlinien und dem Ihaka-Farbpaket entsprechen.


6

Berücksichtigen Sie beim Plotten in Farbe, dass farbenblinde Personen möglicherweise Probleme haben, Elemente nur anhand der Farbe zu unterscheiden. Damit:

  • Verwenden Sie Linienstile, um Linien zu unterscheiden.
  • Verwenden Sie zusätzliches Gewicht in Elementen, machen Sie eine Linienbreite von mindestens 2 pt usw.
  • Verwenden Sie verschiedene Markierungen sowie Farben, um Punkte zu unterscheiden.
  • Verwenden Sie Beschriftungen und Anmerkungen, die sich auch auf Position und Stil beziehen.
  • Beschreiben Sie Zeichnungselemente im Text anhand von Farbe, relativer Position und Stil: "die rote, obere, Strich-Punkt-Kurve".
  • Verwenden Sie eine farbenblinde Palette. Siehe http://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet . Ich habe eine einfache Python-Implementierung der Palette in der letzten Referenz unter code.google.com, suche nach Python-Cudtools

Bedenken Sie auch, dass jemand es möglicherweise auf einem Graustufendrucker ausdrucken muss. Ich habe das schon einmal gemacht - ich habe für eine Aufgabe ggplot2-Standardfarben (die auf einem Bildschirm gut aussehen) verwendet, die ich dann in Schwarzweiß ausgedruckt habe, und die Hälfte der Farben konnte nicht von den anderen unterschieden werden! * erröten *
naught101

4

Das sind wunderbare Vorschläge. Wir haben viel Material unter http://biostat.mc.vanderbilt.edu/StatGraphCourse zusammengestellt . Eine Gruppe von Statistikern aus der Pharmaindustrie, dem akademischen Bereich und der FDA erstellt ebenfalls eine Ressource, die für klinische Studien und verwandte Forschung von großem Nutzen sein wird. Viel neues Material wird in einem Monat enthüllt, aber vieles ist bereits da - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

Mein persönliches Lieblingsgrafikbuch ist Elements of Graphing Data von William Cleveland.

In Bezug auf Software ist es meiner Meinung nach schwer, die ggplot2- und Gitterpakete von R zu übertreffen. Stata unterstützt auch einige hervorragende Grafiken.


3

Es hängt auch davon ab, wo Sie Ihre Grundstücke veröffentlichen möchten. Sie ersparen sich viel Ärger, indem Sie den Leitfaden für Autoren konsultieren, bevor Sie Zeichnungen für ein Tagebuch anfertigen.

Speichern Sie die Diagramme auch in einem Format, das sich leicht ändern lässt, oder speichern Sie den Code, den Sie zum Erstellen der Diagramme verwendet haben. Möglicherweise müssen Sie Korrekturen vornehmen.



2

Die anderen Antworten sind zu formelhaft, um überzeugend zu sein. Lassen Sie mich eine allgemeinere Antwort geben. Ich habe eine Weile mit dieser Frage gekämpft. Ich biete diesen Prozess an:

  1. Kennen Sie Ihre Nachricht
  2. Kenne deine Zuhörer
  3. Kennen Sie Ihre Einschränkungen
  4. Passen Sie Ihre Botschaft an Ihre Zielgruppe an, wenn Sie bestimmte Einschränkungen haben

Ich bin skeptisch gegenüber Pauschalforderungen wie "keep it simple" - was bedeutet das? Nun, es kommt auf das Publikum an. Einige Zuschauer werden den Tufte-Stil auffressen. Aber einige Zuschauer schätzen ab und zu ein wenig Chart-Junk. Manche Menschen langweilen sich in Streudiagrammen. Manche Leute mögen bunte Hintergründe. Ist es so falsch, sie ein wenig zu engagieren, selbst wenn Sie "ästhetische" Reinheit gefährden? Das liegt an Ihnen zu entscheiden.

Die Reaktion Ihres Publikums wird ein wichtiges, aber nicht das einzige Feedback sein. Wenn Sie einen Weg finden, ihr Verständnis vor und nach Ihrer Präsentation zu messen , werden Sie beginnen, die Auswirkungen zu verstehen, die Sie gemacht haben.

Die "richtige" Antwort hängt von diesen Fragen ab:

  • Welche Medien werden Sie verwenden?

  • Erstellen Sie statische oder interaktive Diagramme?

  • Versuchen Sie, eine vordefinierte Geschichte zu erzählen (Exposition) oder zum Experimentieren anzuregen (Exploration)?

  • Inwieweit möchten Sie, dass das Publikum seine eigenen Schlussfolgerungen zieht?

  • Inwieweit möchten Sie, dass das Publikum Ihrer Geschichte folgt und von ihr überzeugt wird?

  • Inwieweit möchten Sie, dass das Publikum Ihre Ergebnisse in Frage stellt?

Zusammengefasst entwerfen Ihre Materialien Ihre Nachricht, Publikum absichtlich gegeben und Einschränkungen.


"Engagieren" oder ablenken? Farbe kann in Ordnung sein, aber letztendlich geht es um Daten, und die Ästhetik sollte den Daten dienen und nicht umgekehrt.
Naught101

2

Eine Sache, an die ich mich anscheinend erinnern kann, die Tufte erwähnt hat und die in den anderen Antworten nicht vorkommt, ist das Mapping. Das heißt, Position, Richtung, Größe usw. in Ihrem Diagramm repräsentieren die Realität . Was sich in der Grafik befindet, sollte sich in der realen Welt befinden. Was groß ist, sollte groß sein (bedenken Sie, dass Bereiche Bereiche und Volumenvolumina darstellen sollten. Versuchen Sie niemals, einen skalaren Wert durch einen Bereich darzustellen, es ist sehr vieldeutig!). Dies gilt auch für Farben, Formen usw., sofern diese relevant sind.

Ein interessantes Beispiel ist die Grafik "Rockserie" hier: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Während es technisch korrekt ist und eine "größere" Rocklänge eine höhere Position in der Grafik einnimmt, ist es tatsächlich ziemlich verwirrend, da die Rocklänge von oben beginnt und nach unten geht (im Gegensatz zu Menschen oder Bäumen, bei denen wir die Höhe von oben messen) Boden). Eine längere Rocklänge bedeutet also einen niedrigeren Wert:

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

Bildbeschreibung hier eingeben

Es gibt wie immer Schwierigkeiten. Zum Beispiel betrachten wir im Allgemeinen die Zeit, um vorwärts zu kommen, und zumindest im Westen lesen wir von links nach rechts, sodass unsere Zeitreihengraphen normalerweise auch von links nach rechts fließen, wenn die Zeit zunimmt. Was passiert also, wenn Sie etwas darstellen möchten, das im Laufe der Zeit am besten lateral dargestellt wird (z. B. Ost-West-Messungen von etwas)? In diesem Fall müssen Sie Kompromisse eingehen und entweder die Zeit nach oben oder unten abbilden (was wiederum von den kulturellen Wahrnehmungen abhängt, denke ich) oder Ihre laterale Variable nach oben / unten in Ihrem Diagramm abbilden.


1
Ein Beispiel für den Kompromiss zwischen Zeit und Raum findet sich in dem Buch Making Maps (kritische Diskussion und Beispiele hier) .
Andy W,

Schönes (schreckliches) Beispiel! Karten bringen einen anderen, schwierigeren Kompromiss: Sie versuchen, 2 Dimensionen + Zeit auf einer zweidimensionalen Seite darzustellen (z. B. Karten der Kontinentalverschiebung). Ziemlich schwierig. Aber ich denke, das ist, was Animationen sind für :)
naught101

Ihr Beispiel erlaubt die Erwähnung von zwei zusätzlichen Punkten, die häufig auftreten. 1. Mit einer Zeitachse ist ein Titel oder eine Bezeichnung wie "Zeit" normalerweise überflüssig. 2. Titel oder Beschriftungen wie "Röcke" können jederzeit mit einer knappen, aber informativen Erklärung, einschließlich der Maßeinheiten, verbessert werden.
Nick Cox

1

Es hängt davon ab, wie die Handlungen besprochen werden.

Wenn ich beispielsweise Pläne für ein Gruppentreffen mit Anrufern von verschiedenen Standorten aus sende, ziehe ich es vor, diese in Powerpoint zusammenzustellen, anstatt in Excel, damit das Umblättern einfacher ist.

Bei technischen Einzelgesprächen stelle ich Excel-Daten zur Verfügung, damit der Kunde einen Plot beiseite schieben und die Rohdaten anzeigen kann. Oder ich kann p-Werte in Zellen neben Regressionskoeffizienten eingeben, z

Denken Sie daran: Grundstücke sind billig, insbesondere für eine Diashow oder für das Versenden per E-Mail an eine Gruppe. Ich möchte lieber 10 klare Diagramme erstellen, die wir durchblättern können, als 5 Diagramme, in denen ich versuche, verschiedene Kohorten (z. B. "Männer und Frauen") in dasselbe Diagramm einzufügen.


1

Ich würde hinzufügen, dass die Wahl der Darstellung die Art des statistischen Tests widerspiegeln sollte, der zur Analyse der Daten verwendet wird. Mit anderen Worten, alle Merkmale der Daten, die für die Analyse verwendet wurden, sollten visuell dargestellt werden. Sie würden also Mittelwerte und Standardfehler anzeigen, wenn Sie einen T-Test verwenden, aber Boxplots, wenn Sie einen Mann-Whitney-Test verwenden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.