Darstellung experimenteller Daten


9

Ich habe mit meinem Berater einen Streit über die Datenvisualisierung. Er behauptet, dass bei der Darstellung der experimentellen Ergebnisse die Werte nur mit " Markern " dargestellt werden sollten, wie im Bild unten dargestellt. Während Kurven nur ein " Modell " darstellen sollten

Markers.png

Andererseits glaube ich, dass eine Kurve in vielen Fällen nicht erforderlich ist, um die Lesbarkeit zu verbessern, wie im zweiten Bild unten gezeigt:

Lines.png

Liege ich falsch oder mein Professor? Wenn dies der Fall ist, wie gehe ich dann vor, um ihm dies zu erklären?


5
Die Punkte sind die Daten. Die Kurven, die Sie an die Punkte anpassen, sind nicht die Daten. Also, wenn Sie die Daten

3
Wie JeffE sagt. Um es noch deutlicher zu machen: Die Kurven, die Sie gezeichnet haben, sind ein Modell, da Sie beim Zeichnen eine bestimmte Form angenommen haben und einige Gründe für diese Form hatten. Diese Argumentation basiert auf einem bestimmten Modell.
Gerrit

1
Ich habe eine Migrationsanfrage eingereicht. das gehört wirklich in crossvalidated, nicht hier.

2
Ich denke, es könnte auf CrossValidated themenbezogen sein, aber es ist definitiv auch hier thematisch . Migration sollte nur in Betracht gezogen werden, wenn sie hier nicht zum Thema gehört (es gibt Fragen, die auf zwei Websites zum Thema gehören, das ist in Ordnung). Es ist eine echte Frage mit gültigen Antworten, sie ist definitiv für viele Akademiker relevant.

2
Ihr zweites Diagramm ist zweifelhaft. Wenn Sie die Punkte mit geraden Linien verbunden haben, haben Sie (vielleicht) ein Argument für visuelle Klarheit. Mit einer Kurve behaupten Sie jedoch, dass der Peak der blauen Linie bei 740 ° und das Minimum der violetten Linie bei 840 ° liegt, obwohl Sie bei diesen Temperaturen keine experimentellen Daten haben. Das Einführen von min / max außerhalb der gemessenen Daten ist eine rote Fahne.
Darren Cook

Antworten:


10

Ich mag diese Faustregel:

Wenn Sie die Linie benötigen, um das Auge zu führen (dh um einen Trend anzuzeigen, der ohne die Linie nicht so deutlich sichtbar wäre), sollten Sie die Linie nicht setzen.

Menschen sind sehr gut darin, Muster zu erkennen (wir sind eher auf der Seite, Trends zu sehen, die es nicht gibt, als einen bestehenden Trend zu übersehen). Wenn wir den Trend nicht ohne Linie erhalten können, können wir ziemlich sicher sein, dass kein Trend im Datensatz endgültig angezeigt werden kann.

In Bezug auf das zweite Diagramm sind die beiden roten Quadrate von C: O 1,2 bei 700 ° C der einzige Hinweis auf die Unsicherheit Ihrer Messpunkte. Die Verbreitung dieser beiden bedeutet, dass ich zB nicht akzeptieren würde

  • dass es für C: O 1.2 überhaupt einen Trend gibt
  • dass es einen Unterschied zwischen 2.0 und 3.6 gibt
  • und sicher passen die gekrümmten Modelle die Daten an.

ohne sehr gute Gründe angegeben. Das wäre jedoch wieder ein Modell.


edit: Antwort auf Iwans Kommentar:

Ich bin Chemiker und würde sagen, dass es keine fehlerfreie Messung gibt - was akzeptabel ist, hängt vom Experiment und Instrument ab.

Diese Antwort ist nicht gegen das Anzeigen von experimentellen Fehlern, sondern nur gegen das Anzeigen und Berücksichtigen.

Die Idee hinter meiner Argumentation ist, dass die Grafik genau eine wiederholte Messung zeigt. Wenn also diskutiert wird, wie komplex ein Modell angepasst werden sollte (dh horizontale Linie, gerade Linie, quadratisch, ...), kann dies uns eine Vorstellung von der Messung geben Error. In Ihrem Fall bedeutet dies, dass Sie nicht in der Lage wären, ein aussagekräftiges Quadrat (Spline) anzupassen, selbst wenn Sie ein hartes Modell (z. B. eine thermodynamische oder kinetische Gleichung) hätten, das darauf hindeutet, dass es quadratisch sein sollte - Sie haben einfach nicht genügend Daten .

Um dies zu veranschaulichen:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

Hier ist eine lineare Anpassung zusammen mit dem 95% -Konfidenzintervall für jedes der C: O-Verhältnisse:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

lineares Modell

Beachten Sie, dass für die höheren C: O-Verhältnisse das Konfidenzintervall weit unter 0 liegt. Dies bedeutet, dass die impliziten Annahmen des linearen Modells falsch sind. Sie können jedoch den Schluss ziehen, dass die linearen Modelle für die höheren C: O-Gehalte bereits überangepasst sind.

Zurücktreten und nur einen konstanten Wert anpassen (dh keine T-Abhängigkeit):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

keine T-Abhängigkeit

Das Komplement besteht darin, keine Abhängigkeit von C: O zu modellieren:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

keine C: O-Abhängigkeit

Das Konfidenzintervall würde jedoch eine horizontale oder sogar leicht ansteigende Linie abdecken.

Sie könnten versuchen, z. B. unterschiedliche Offsets für die drei C: O-Verhältnisse zuzulassen, aber gleiche Steigungen zu verwenden.

Bereits wenige weitere Messungen würden die Situation jedoch drastisch verbessern. Beachten Sie, wie eng die Konfidenzintervalle für C: O = 1: 1 sind, wenn Sie 4 statt nur 3 Messungen haben.

Fazit: Wenn Sie meine Punkte vergleichen, denen ich skeptisch gegenüberstehen würde, haben sie viel zu viel in die wenigen verfügbaren Punkte hineingelesen!


Sie machen sehr gute Punkte. In der Technik sind experimentelle Fehler (Unsicherheiten) jedoch sehr häufig und es wird angenommen, dass ein relativer Fehler von 3 bis 5% akzeptabel ist. Trotzdem muss ich MAX-, MIN- und AVG-Ergebnisse anzeigen. In meinem Fall sind die Markierungen die Extremitäten und die Linie ist der Durchschnitt.
Ivan P.

sehr gutes und äußerst hilfreiches Beispiel (Sie haben mich für R interessiert). Das Richtige ist natürlich, mehr Datenpunkte zu erhalten.
Ivan P.

12

Wie JeffE sagt: Die Punkte sind die Daten . Im Allgemeinen ist es gut, das Hinzufügen von Kurven so weit wie möglich zu vermeiden. Ein Grund für das Hinzufügen einer Kurve besteht darin, dass das Diagramm für das Auge schöner wird, indem die Punkte und der Trend zwischen den Punkten besser lesbar gemacht werden. Dies gilt insbesondere dann, wenn Sie nur wenige Datenpunkte haben.

Es gibt jedoch andere Möglichkeiten, spärliche Daten anzuzeigen , die möglicherweise besser sind als ein Streudiagramm. Eine Möglichkeit ist ein Balkendiagramm, bei dem die verschiedenen Balken viel besser sichtbar sind als Ihre einzelnen Punkte. Ein Farbcode (ähnlich dem, den Sie bereits in Ihrer Abbildung haben) hilft dabei, die Trends in jeder Datenreihe zu erkennen (oder die Datenreihe könnte aufgeteilt und in kleineren einzelnen Balkendiagrammen nebeneinander dargestellt werden).

Wenn Sie wirklich eine Linie zwischen Ihren Symbolen einfügen möchten, gibt es zwei Fälle:

  1. Wenn Sie erwarten, dass ein bestimmtes Modell für Ihre Daten gültig ist (linear, harmonisch, was auch immer), sollten Sie Ihre Daten in das Modell einpassen, das Modell im Text erläutern und die Übereinstimmung zwischen Daten und Modell kommentieren.

  2. Wenn Sie kein vernünftiges Modell für die Daten haben, sollten Sie keine zusätzlichen Annahmen in Ihr Diagramm aufnehmen. Dies bedeutet insbesondere, dass Sie keine Linien zwischen Ihren Punkten einfügen sollten, außer Straßenlinien. Die netten "Spline Fit" -Interpolationen , die Excel (und andere Software) zeichnen können, sind eine Lüge . Es gibt keinen gültigen Grund für Ihre Daten, diesem bestimmten mathematischen Modell zu folgen. Sie sollten sich daher an gerade Liniensegmente halten.

    Darüber hinaus kann es in diesem Fall hilfreich sein, irgendwo in der Bildunterschrift einen Haftungsausschluss hinzuzufügen, z. B. „Linien sind nur Hilfslinien für das Auge“.


2
Dies ist ein ausgezeichneter Rat abzüglich des Kommentars, dass Bars angemessener sind. Für eine ähnliche Diskussion siehe Alternative Grafiken zu "Lenker" -Diagrammen . Stellen Sie sich das vom OP aufgelistete Diagramm als gruppiertes Balkendiagramm vor. Es wäre möglicherweise schwierig, den Trend über Temperaturbereiche hinweg zu visualisieren. Eine Möglichkeit, die Punkte besser sichtbar zu machen, besteht darin, sie entlang der x-Achse zu zittern. Clevelands Arbeit würde vorschlagen, dass wir Punkte sowieso Balken vorziehen sollten.
Andy W

@Andy W, was meinst du mit "Jitter entlang der x-Achse"?
Ivan P.

1
@IvanP., Ich meine, anstatt die Punkte auf diesen bestimmten Wert auf der Abszisse zu fixieren, um sie leicht nach rechts oder links zu verschieben, damit sich die Punkte nicht gegenseitig verdecken. Aus dem Rest des Diagramms sollte klar sein, dass sie sich wirklich auf exakte Werte für die Gruppen auf der x-Achse beziehen, und der leichte Jitter sollte keinen Einfluss auf die Visualisierung des Trends zwischen den Werten haben.
Andy W

6

1-Ihr Professor macht einen gültigen Punkt.

2-Ihr Plot erhöht meiner Meinung nach definitiv nicht die Lesbarkeit.

3-Nach meinem Verständnis ist dies nicht das richtige Forum, um diese Art von Frage wirklich zu stellen, und Sie sollten sie bei einer Kreuzvalidierung stellen.


Ich bin interessiert zu wissen, wo das Problem in der Lesbarkeit liegt und Verbesserungsvorschläge sind sehr willkommen
Ivan P.

1

Manchmal sind Verbindungspunkte sinnvoll, insbesondere wenn sie sehr dicht sind.

Und dann kann es sinnvoll sein, zu interpolieren (z. B. mit einem Spline ). Wenn es sich jedoch um etwas Fortgeschritteneres handelt als den Spline der ersten Ordnung (für den es offensichtlich ist, dass es sich nur um Verbindungspunkte handelt), müssen Sie dies erwähnen.

Bei einigen Punkten oder einem Dutzend Punkten ist dies jedoch nicht der Fall. Lassen Sie die Punkte einfach so, wie sie sind, mit Markierungen. Wenn Sie eine Linie (oder eine andere Kurve) anpassen möchten, handelt es sich um ein Modell. Sie können es hinzufügen, aber explizit sein - z. B. "Linie steht für lineare Regressionsanpassung".


0

Ich denke, es gibt Fälle, in denen man kein explizites Modell vorschlägt, aber eine Art Leitfaden für das Auge benötigt. Meine Regel ist dann, Kurven wie die Pest zu vermeiden und sich an stückweise gerade Linien zwischen aufeinanderfolgenden Punkten einer Reihe zu halten.

Zum einen ist diese Annahme für die Leser offensichtlicher. Die Stacheligkeit kann die Leser auch davon abhalten, Trends anzunehmen, die nicht von Daten unterstützt werden. Wenn überhaupt, werden dadurch nur Rauschen und Ausreißer hervorgehoben.

Das, wovor ich vorsichtig bin, ist die flüchtige (nicht strenge, nicht explizite) Verwendung von Splines, Quadratics, Regression usw. Sehr oft scheint dies Trends zu geben, bei denen es keine gibt. Ein gutes Beispiel für Missbrauch sind die von @Ivan gezeichneten Kurven. Mit 3 Datenpunkten halte ich keine Maxima oder Minima im zugrunde liegenden Modell für offensichtlich.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.