Obwohl die anderen Befragten nützliche Erkenntnisse geliefert haben, bin ich mit einigen ihrer Standpunkte nicht einverstanden. Insbesondere glaube ich, dass Grafiken, die die Details der Daten anzeigen können (ohne überladen zu sein), reicher und lohnender anzusehen sind als solche, die die Daten offen zusammenfassen oder verbergen, und ich glaube, dass alle Daten interessant sind, nicht nur die für Computer X. Werfen wir einen Blick darauf.
(Ich zeige hier kleine Diagramme, um darauf hinzuweisen, dass ziemlich viele Zahlen in kleinen Räumen im Detail sinnvoll dargestellt werden können.)
80 = 2 × 4 × 10
Die grafische Geometrie (Punktmarkierungen gegenüber Liniensegmenten) unterscheidet Computer X (Markierungen) deutlich von Computer Y (Segmente). Variationen in der Symbolik - sowohl Form als auch Farbe für die Punktmarkierungen - sowie Variationen in der Position entlang der x-Achse unterscheiden die Programme deutlich. (Durch die Verwendung der Form wird sichergestellt, dass die Unterscheidungen auch in einem Graustufen-Rendering bestehen bleiben, was wahrscheinlich in einem Print-Journal der Fall ist.)
Die Programme scheinen keine inhärente Reihenfolge zu haben, daher ist es sinnlos, sie alphabetisch mit ihren Codenamen "a", ..., "d" darzustellen. Diese Freiheit wurde ausgebeutet sequenzieren die Ergebnisse durch die mittlere Zeit von Computer X. Diese einfache Änderung erforderlich, die keine zusätzliche Komplexität oder Tinte erfordert, offenbart ein interessantes Muster: die relativen Zeitpunkte der Programme auf Computer Y unterscheiden sich von den relativen Zeiten auf Computer X. Obwohl dies statistisch signifikant sein kann oder nicht, ist es ein Merkmal der Daten, das diese Grafik zufällig sichtbar macht. Das ist , was wir eine gute Grafik hoffen tun.
Indem die Punktmarkierungen groß genug gemacht werden, fügen sie sich fast visuell in eine grafische Darstellung der Gesamtvariabilität nach Programm ein. (Die Überblendung verliert einige Informationen: Wir sehen nicht genau, wo die Überlappungen auftreten. Dies könnte behoben werden, indem die Punkte in horizontaler Richtung leicht verwackelt werden, wodurch alle Überlappungen aufgelöst werden.)
Diese Grafik allein könnte ausreichen, um die Daten darzustellen. Es gibt jedoch noch mehr zu entdecken, wenn dieselben Techniken verwendet werden, um die Zeitabläufe von einem Lauf zum anderen zu vergleichen.
Diesmal unterscheidet die horizontale Position Computer Y von Computer X, im Wesentlichen durch Verwendung von nebeneinander angeordneten Feldern. (Umrisse um jedes Panel wurden gelöscht, da sie die visuellen Vergleiche beeinträchtigen würden, die wir über das Diagramm hinweg durchführen möchten.) Innerhalb jedes Panels unterscheidet die Position den Lauf. Genau wie im ersten Diagramm - und unter Verwendung des gleichen Markierungsschemas zur Unterscheidung der Programme - variieren die Markierungen in Form und Farbe. Dies erleichtert Vergleiche zwischen den beiden Darstellungen.
Beachten Sie den visuellen Kontrast in den Markierungsmustern zwischen den beiden Feldern: Dies hat eine Unmittelbarkeit, die die Zahlentabellen nicht bieten, die sorgfältig gescannt werden müssen, bevor man merkt, dass Computer Y in seinen Timings so konsistent ist.
Die Markierungen sind durch schwache gestrichelte Linien verbunden, um visuelle Verbindungen innerhalb jedes Programms herzustellen. Diese Zeilen sind zusätzliche Tinte, die für die Darstellung der Daten scheinbar unnötig ist. Ich vermute, Professor Tufte würde sie vermeiden. Ich finde jedoch, dass sie als nützliche visuelle Hilfsmittel dienen, um die Unordnung zu trennen, in der sich Markierungen für verschiedene Programme fast überlappen.
Auch hier gehe ich davon aus, dass die Läufe unabhängig sind und daher die Laufnummer bedeutungslos ist. Wir können das noch einmal ausnutzen: Innerhalb jedes Panels wurden die Läufe separat nach der Gesamtzeit für die vier Algorithmen sequenziert. (Die x-Achse kennzeichnet keine Laufnummern, da dies nur eine Ablenkung wäre.) Wie im ersten Diagramm zeigt diese Sequenzierung mehrere interessante Korrelationsmuster zwischen den Zeitabläufen der vier Algorithmen in jedem Lauf. Der größte Teil der Variation für Computer X ist auf Änderungen im Algorithmus "b" (rote Quadrate) zurückzuführen. Das haben wir schon in der ersten Grafik gesehen. Die schlechtesten Gesamtleistungen sind jedoch auf zwei lange Zeiten für die Algorithmen "c" und "d" (Golddiamanten bzw. grüne Dreiecke) zurückzuführen, die innerhalb derselben zwei Läufe auftraten. Interessant ist auch, dass die Ausreißer für die Programme "a" und "c" beide im selben Lauf auftraten. Diese Beobachtungen könnten nützliche Informationen über Variationen im Programm-Timing für Computer X liefern. Sie sind Beispiele dafür, wie viel über Variationen und Korrelationen gesehen werden kann, da diese Grafiken die Details der Daten zeigen (anstatt Zusammenfassungen wie Balken oder Boxplots oder was auch immer). -aber darauf muss ich hier nicht näher eingehen; Sie können es selbst erkunden.
Ich habe diese Grafiken erstellt, ohne über eine "Geschichte" nachzudenken oder die Daten zu "drehen", weil ich zuerst sehen wollte, was die Daten zu sagen haben. Solche Grafiken werden vielleicht nie die Seiten von USA Today zieren, aber aufgrund ihrer Fähigkeit , Muster aufzudecken, indem sie schnelle, genaue visuelle Vergleiche ermöglichen,Sie sind gute Kandidaten für die Übermittlung von Ergebnissen an ein wissenschaftliches oder technisches Publikum. (Das heißt nicht, dass sie fehlerfrei sind: Es gibt einige offensichtliche Möglichkeiten, sie zu verbessern, einschließlich Jitter im ersten und gute Legenden und vernünftige Labels in beiden.) Also ja, ich stimme zu, dass die Aufmerksamkeit für das potenzielle Publikum wichtig ist. Ich bin jedoch nicht davon überzeugt, dass Grafiken mit der Absicht erstellt werden sollten, einen bestimmten Standpunkt zu vertreten oder zu vertreten.
Zusammenfassend möchte ich diesen Rat geben.
Verwenden Sie Gestaltungsprinzipien aus der Literatur zu Kartographie und kognitiven Neurowissenschaften (z. B. Alan MacEachren ), um die Chancen zu verbessern, dass Leser Ihre Grafik so interpretieren, wie Sie es beabsichtigen, und dass sie ehrliche, unvoreingenommene Schlussfolgerungen daraus ziehen können.
Verwenden Sie Gestaltungsprinzipien aus der Literatur zu statistischen Grafiken (z. B. Ed Tufte und Bill Cleveland ), um informative datenreiche Präsentationen zu erstellen.
Experimentieren Sie und seien Sie kreativ. Prinzipien sind der Ausgangspunkt für die Erstellung einer statistischen Grafik, aber sie können gebrochen werden. Verstehe, gegen welche Prinzipien du verstößt und warum.
Streben Sie eher nach Offenbarung als nach bloßer Zusammenfassung. Eine zufriedenstellende Grafik zeigt deutlich interessierende Muster in den Daten. Eine großartige Grafik zeigt unerwartete Muster und lädt uns zu Vergleichen ein, an die wir vorher vielleicht nicht gedacht haben. Es kann uns dazu veranlassen, neue Fragen und weitere Fragen zu stellen. So fördern wir unser Verständnis.