IMHO, wer zuerst den genauen Zeitpunkt der Änderungen ausgelassen hat, number of cars
ist der erste, der für irreführende Ergebnisse verantwortlich ist. Wenn Sie diese Informationen hätten (auch wenn sie mit einem Fehler gemessen wurden), time
wäre dies eine richtige kontinuierliche Variable, nicht unbedingt eine gruppierte kontinuierliche Variable (siehe Anderson, 1984). Sie können Beobachtungen in Gruppen gruppieren, hour
wenn Sie dies wirklich möchten. Zu diesem Zeitpunkt übernehmen Sie die Verantwortung für die Ableitung irreführender Ergebnisse. Andernfalls können Sie durch Beibehaltung präziser Ankunftszeiten Ihre number of cars
Zeitreihen kontinuierlich kontinuierlich time
genau grafisch darstellen .
Wie auch immer, vorausgesetzt du steckst bei number of cars
per festhour
Ich stimme @John zu, Sie sollten eine Linie ziehen, die Ihre stündlichen Beobachtungen verbindet. Wenn Sie keine Informationen darüber haben, wann jede inkrementelle Änderung stattgefunden hat, ist es ziemlich schwer zu sagen, dass Sie jemanden irreführen, es sei denn, Sie beschreiben die Grenzen der grafischen Informationen nicht. Wenn Sie Ihre stündlichen Daten mit einem einfachen Balkendiagramm ohne Verbindungslinie zwischen den Behältern grafisch darstellen, sind Sie nicht wirklich schuldig, jemanden irrezuführen, wenn Sie nicht behaupten, dass die Änderungen zwischen den stündlichen Beobachtungen genau wie abgebildet zur vollen Stunde erfolgen. alles auf einmal. Wenn jemand etwas falsch versteht (wie es wahrscheinlich bei ausreichend publizierten Statistiken oder Daten der Fall sein wird), werden Sie diese nicht irreführen, insbesondere wenn Sie Ihre Daten und das Erfassungsverfahren ausreichend detailliert beschreiben. So viel sollte nicht schwer zu tun sein.
Angesichts der grundlegenden Klarheit und Gründlichkeit der Daten- und Diagrammbeschreibungen sollte es keinen Nachteil geben, eine Linie zum Verbinden Ihrer Behälter zu zeichnen. Der Vorteil des Verbindens Ihrer Behälter ist in der Tat der Nachteil, den Sie zu denken scheinen: Das Zeichnen dieser Linien ahmt eine halbwegs anständige Gleichung für number of cars
als Funktion der kontinuierlichen nach time
, obwohl sie auf diskreten stündlichen Beobachtungen basiert. Sie können eine gerade Linie zwischen den Beobachtungen verwenden, um eine ziemlich vernünftige Annahme darzustellen, dass die Änderung linear über jede Beobachtung erfolgt hour
, nicht alle auf einmal. Basierend auf einer solchen Annahme kann jeder Leser eine vernünftige Vermutung anstellen, welche minute
nach einer bestimmten hour
Messung das nächste Auto nach diesem vernünftigen vierstufigen Verfahren ankommt oder abfährt:
number of cars
= 1 +hour
- Zeichnen Sie von diesem Punkt aus eine gerade Linie nach unten, um herauszufinden, wo sie die
hour
Achse schneidet
- Messen Sie den
distance
Punkt dieses Punktes auf der hour
Achse vom Punkt der vorherigen Beobachtung aus
distance
÷ distance between observations
× 60 = minute
hour
Natürlich kann man die Ankunft des nächsten Autos auch auf die genaue Sekunde genau schätzen, und Sie können die Leser nicht davon abhalten, dies zu tun, indem Sie die Linie nicht angeben - das Zeichnen der Linie wird nur zum ersten von fünf Schritten. Wenn also jemand tatsächlich wissen möchte, wie viele Autos in der Zwischenzeit dort waren, kann er das nicht, weil die Informationen nicht verfügbar sind, aber er kann schätzen. Ich stelle mir vor, dass sie dankbar sein werden, wenn Sie ihnen einen Schritt aus dem Prozess machen.
Wenn Sie dies für Ihre Leser mit einfachen, geraden Linien tun, bedeutet dies nur, dass Sie davon ausgehen, dass die Änderung linear zwischen stündlichen Beobachtungen erfolgt, oder genauer gesagt, Ihr Desinteresse an Ungenauigkeiten in dieser Annahme. Ungenauigkeiten sind nicht schwer vorstellbar. Erstens tritt die Änderung notwendigerweise als nichtlineare, null aufgeblasene Funktion von auf time
. Es ist nichtlinear, weil das Änderungsereignis ternär ist : Entweder kommt ein Auto an, fährt ab oder auch nicht - Autos kommen nicht in Bruchteilen an oder fahren ab. Es ist auf Null aufgepumpt, weil in den meisten Momenten kein Auto ankommt oder abfährt. Sie können dies umgehen, indem Sie die Linie so behandeln, probability
dass sie beschreibt, dass Autos in einem bestimmten Moment ankommen oder abfahren, um die nächste ganze Zahl zu erreichen.
Eine weitere Ungenauigkeit der Annahme hinter geraden Linien zwischen stündlichen Beobachtungen bleibt bestehen. Es ist zu erwarten, dass sich die Änderungsrate (in Bezug auf probability
die obigen Ausführungen) im Laufe der Zeit reibungsloser ändert, als es Ihre zwischen den Punkten getrennt gezeichneten geraden Linien implizieren. Mathematischer ausgedrückt möchten Sie möglicherweise, dass die Ableitung Ihrer number of cars
( hour
) -Funktion über hour
s hinweg stetig ist . Möglicherweise können Sie dies tun, indem Sie Ihren Daten eine Polynomfunktion anpassen. Wenn Ihr Zweck jedoch prädiktiv ist, achten Sie auf eine Überanpassung .
Ein weiterer Vorteil von Linien gegenüber Balken im Histogrammstil (dh ohne Zwischenabstand für benachbarte Werte von hour
... geschweige denn Diagrammen mit Balken, die sich nicht "berühren") ergibt sich aus Ihrer polytomen lot
Variablen. Sie können Ihre separaten Zeitreihen für jedes Los in demselben Diagramm überlagern, um Vergleiche zu erleichtern. Auf diese Weise können Sie feststellen, ob Ihre lot
Variable interessant ist. Hier ist eine Demonstration mit einigen erfundenen Daten:
Ein großes Lob an McCown !
Ich werde nicht einmal versuchen herauszufinden, wie man das kohärent mit Bars macht. Ich überlasse das @ ChristianStade-Schuldt;) Um fair zu sein, ist es noch einfacher, diese Punkte nicht wie vorgeschlagen zu verbinden, aber das Hinzufügen der Linien hilft dabei, die Punkte zu unterscheiden, die getrennten Zeitreihen voneinander entsprechen. Am Ende wird es immer noch ein wenig subjektiv sein, also urteilen Sie selbst:
Ich jedenfalls finde mich ohnehin dabei, die Linien in meinem Kopf zu ziehen. Übrigens, wenn Sie der Meinung sind, dass die Linien in der ersten Abbildung die visuelle Wirkung der exakten Punkte beeinträchtigen, vergessen Sie nicht, dass Sie die Punkte jederzeit vergrößern, ihre Form ändern oder ihre Werte numerisch in einer separaten Tabelle darstellen können .
Referenz
Anderson, JA (1984). Regression und geordnete kategoriale Variablen. Zeitschrift der Royal Statistical Society B, 46 , 1–30.