Als Nebenhobby habe ich mich mit der Vorhersage von Zeitreihen befasst (insbesondere mit R).
Für meine Daten habe ich die Anzahl der Besuche pro Tag für jeden Tag, der fast 4 Jahre zurückliegt. In diesen Daten gibt es einige unterschiedliche Muster:
- Montag-Fr hat viele Besuche (am höchsten am Mo / Di), aber drastisch weniger am Sa-So.
- Bestimmte Jahreszeiten fallen (dh viel weniger Besuche rund um US-Feiertage, Sommer zeigen weniger Wachstum)
- Signifikantes Wachstum von Jahr zu Jahr
Es wäre schön, mit diesen Daten ein bevorstehendes Jahr prognostizieren zu können und damit auch ein saisonbereinigtes Wachstum von Monat zu Monat zu erzielen. Die Hauptsache, die mich mit einer monatlichen Ansicht abschreckt, ist:
- Bestimmte Monate haben mehr Mo / Di als andere Monate (und das ist auch über Jahre nicht konsistent). Daher muss ein Monat, der mehr Wochentagen passiert, entsprechend angepasst werden.
Das Erkunden von Wochen scheint ebenfalls schwierig zu sein, da sich die Wochennummerierungssysteme je nach Jahr von 52 bis 53 ändern, und es scheint, dass ts
dies nicht funktioniert.
Ich denke darüber nach, einen Durchschnitt für die Wochentage des Monats zu ermitteln, aber die resultierende Einheit ist etwas seltsam (Wachstum der durchschnittlichen Wochentagsbesuche), und das würde dazu führen, dass Daten gelöscht werden, die gültig sind.
Ich bin der Meinung, dass diese Art von Daten in Zeitreihen häufig vorkommt (z. B. könnte der Stromverbrauch in Bürogebäuden so etwas sein). Hat jemand einen Rat, wie man sie modelliert, insbesondere in R?
Die Daten, mit denen ich arbeite, sind ziemlich einfach. Sie beginnen wie folgt:
[,1]
2008-10-05 17607
2008-10-06 36368
2008-10-07 40250
2008-10-08 39631
2008-10-09 40870
2008-10-10 35706
2008-10-11 18245
2008-10-12 23528
2008-10-13 48077
2008-10-14 48500
2008-10-15 49017
2008-10-16 50733
2008-10-17 46909
2008-10-18 22467
und setzt sich bis heute so fort, mit einem allgemeinen Wachstumstrend, einigen Einbrüchen in den US-Ferienwochen und einem Wachstum, das sich im Sommer im Allgemeinen verlangsamt.
ts
(und sogar msts
) passt nicht zu einer Stichprobenperiode von einer Woche mit einer "natürlichen" Periode von einem Jahr (Kalender auch nicht wirklich, denke ich). Oder ich verstehe einfach nicht, wie das funktioniert ...